Llama 4 Scout

10 Millionen Token Kontext - das längste Fenster aller offenen Modelle

Llama 4 Scout definiert neu, was ein einzelner Modellaufruf leisten kann. Aufgebaut auf Metas Mixture-of-Experts-Architektur mit 109B Gesamtparametern und nur 17B aktiv pro Token, bietet es das längste Kontextfenster aller frei verfügbaren Modelle mit 10 Millionen Token. Lade eine komplette Codebasis mit Hunderten von Dateien, eine vollständige Forschungsbibliothek mit Dutzenden von Papers oder stundenlange Meeting-Transkripte. Wo andere Modelle dich zum Aufteilen und Zusammenfassen zwingen, verarbeitet Llama 4 Scout alles auf einmal und bewahrt dokumentübergreifende Zusammenhänge und subtile Verbindungen, die beim Chunking verloren gehen würden.

Chat starten Benchmarks ansehen

Modellvarianten

Instruction-Tuned- und Basismodelle

Wähle zwischen der Instruction-Tuned-Variante, die für Chat und Long-Context-Aufgaben optimiert ist, oder dem Basismodell für Feinabstimmung und individuelle Anwendungen.

Mixture-of-Experts-Architektur

109B Gesamtparameter, 17B aktiv pro Token

Llama 4 Scout nutzt ein Sparse-MoE-Design mit 16 Experten und aktiviert 17B Parameter pro Forward Pass. Das herausragende Merkmal ist das Kontextfenster von 10 Millionen Token - das längste aller frei verfügbaren Modelle.

Ideal für Aufgaben, die die Verarbeitung großer Textmengen erfordern: komplette Codebasen, Multi-Dokument-Analysen, lange Forschungsarbeiten und ausgedehnte Gesprächsverläufe.

Chat starten Fähigkeiten ansehen

Instruction-Tuned

Scout Instruct

Optimiert für konversationelle KI und Long-Context-Aufgaben

Feinabgestimmt für das Befolgen von Anweisungen, Multi-Turn-Dialoge und die Verarbeitung sehr langer Eingaben

Jetzt verfügbar

Chat starten Gewichte herunterladen

Vortrainiert

Scout Base

MoE-Basismodell für Feinabstimmung und spezialisierte Anwendungen

Vortrainiert auf vielfältigen multimodalen Daten mit 16-Experten-Routing

Jetzt verfügbar

Auf HuggingFace ansehen Dokumentation

Fähigkeiten

Was Llama 4 Scout zum Long-Context-Kraftpaket macht

Llama 4 Scout kombiniert ein beispielloses 10M-Token-Kontextfenster mit MoE-Effizienz, nativer multimodaler Unterstützung und starken Reasoning-Fähigkeiten. Jede Funktion ist darauf ausgelegt, Aufgaben zu bewältigen, die die Verarbeitung großer Informationsmengen in einem einzigen Durchgang erfordern.

10M Token Kontextfenster

Das längste Kontextfenster aller frei verfügbaren Modelle. Verarbeite komplette Codebasen mit über 50.000 Zeilen in Hunderten von Dateien, Multi-Dokument-Forschungsbibliotheken oder stundenlange Gespräche in einem einzigen Aufruf. Needle-in-a-Haystack-Tests bestätigen eine Abrufgenauigkeit von 95 % bis 8 Millionen Token und 89 % bei der vollen 10-Millionen-Token-Grenze.

MoE-Effizienz

Aktiviert nur 17B Parameter pro Token aus einem Pool von 109B über 16 Experten. Diese Sparse-Routing-Strategie liefert starke Leistung bei einem Bruchteil der Rechenkosten dichter Modelle mit vergleichbarer Gesamtparameterzahl. Das Ergebnis: praktisches Deployment auf weniger GPUs, als man für ein Modell dieser Kapazität erwarten würde.

Code-Analyse im großen Maßstab

Lade ganze Repositories in den Kontext für dateiübergreifende Analyse, Dependency-Tracking und umfangreiche Refactoring-Aufgaben. Llama 4 Scout kann Funktionsaufrufe über Module hinweg verfolgen, ungenutzte Imports identifizieren und Architekturverbesserungen vorschlagen - und dabei das Gesamtbild deiner Codebasis gleichzeitig im Blick behalten.

Agentische Workflows

Natives Function Calling und Tool-Nutzung ermöglichen autonome Agenten ohne zusätzliche Feinabstimmung. Baue Workflows, die mehrere Tools verketten, Datenbanken abfragen, APIs aufrufen und Ergebnisse sequenziell verarbeiten. Das erweiterte Kontextfenster bedeutet, dass Agenten über viele Interaktionsschritte hinweg einen umfangreichen Zustand beibehalten können.

Mehrsprachige Unterstützung

Starke Leistung in mehreren Sprachen mit kulturellem Kontextverständnis für globale Anwendungen. Ob du Dokumente auf Englisch, Chinesisch, Spanisch oder in anderen unterstützten Sprachen analysierst - Llama 4 Scout liefert konsistente Qualität und nuanciertes Verständnis über Sprachgrenzen hinweg.

Nativ multimodal

Verarbeite Text und Bilder gemeinsam mit Early-Fusion-Architektur. Analysiere Screenshots, Diagramme, Charts und Dokumente zusammen mit Text, ohne separate Vision-Pipelines zu benötigen. Die multimodale Fähigkeit ist von Grund auf in das Modell integriert und ermöglicht nahtloses Reasoning über visuelle und textuelle Informationen.

Wichtige Highlights

Warum das Kontextfenster von Llama 4 Scout so wichtig ist

Ein 10M-Token-Kontextfenster verändert, was mit einem einzigen Modellaufruf möglich ist.

Was in 10M Token passt

Eine komplette mittelgroße Codebasis (50K+ Zeilen über Hunderte von Dateien)
Mehrere Forschungsarbeiten oder ein ganzes Buch
Stundenlange Meeting-Transkripte oder Gesprächsverläufe
Vollständige Dokumentationssets für komplexe Systeme
95%+ Abrufgenauigkeit bis 8M Token in Needle-in-a-Haystack-Tests

Technische Daten

109B Gesamtparameter, 17B aktiv pro Token
16 Experten in MoE-Architektur
10M Token Kontextfenster
Nativ multimodal (Text + Bild)
Llama 3.1 kompatible Lizenz

Kostenlosen Chat starten Gewichte herunterladen

Leistung

Long-Context-Spezialist mit wettbewerbsfähigem Reasoning

Llama 4 Scout liefert starke Leistung bei Standard-Benchmarks und bietet gleichzeitig ein unerreichtes 10M-Token-Kontextfenster für Long-Document-Aufgaben.

Im praktischen Einsatz glänzt Llama 4 Scout, wenn Aufgaben die Verarbeitung großer Informationsmengen erfordern. Entwickler berichten, dass sie erfolgreich ganze GitHub-Repositories für umfassende Code-Reviews laden, Forscher füttern komplette Paper-Sammlungen für Literatursynthesen, und Rechtsteams verarbeiten vollständige Vertragsbibliotheken für Klauselvergleiche. Während Maverick bei reinen Benchmark-Werten führt, macht Scouts 10M-Kontextfenster es zur klaren Wahl für Workflows, bei denen es wertvoller ist, alles auf einmal zu sehen, als marginale Qualitätsgewinne bei kurzen Prompts.

Chat starten Model Card ansehen

Llama 4 Scout Leistungsvergleichsdiagramm

10M Token Kontextfenster - das längste aller offenen Modelle

95%+ Abrufgenauigkeit bis 8M Token

17B aktive Parameter aus 109B gesamt (16 Experten)

Wettbewerbsfähig mit Modellen der 2-3-fachen aktiven Parameterzahl

Native multimodale Unterstützung für Text- und Bildeingaben

Benchmark-Vergleich

Scout vs. Maverick und die Llama-4-Familie

Scout tauscht etwas reine Benchmark-Leistung gegen seinen massiven Kontextfenster-Vorteil ein.

Benchmark	Llama 4 Scout 16 Experten Vorgestellt	Llama 4 Maverick 128 Experten	Llama 3.1 70B Dense
MMLU Pro Wissen & Reasoning	74.3%	80.5%	66.4%
GPQA Diamond Wissenschaftliches Wissen	57.2%	69.8%	46.7%
LiveCodeBench v5 Coding	32.8%	43.4%	28.5%
MMMU Multimodal	69.4%	73.4%	-
Context Window Max. Token	10M	1M	128K
Total Parameters Modellgröße	109B	400B	70B
Active Parameters Pro Token	17B	17B	70B

Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.

Long Context

10M Token: Verarbeite ganze Codebasen mit Llama 4 Scout

Das 10M-Token-Kontextfenster von Llama 4 Scout ist das längste aller frei verfügbaren Modelle. Lade ganze Repositories, Multi-Dokument-Forschungssets oder stundenlange Transkripte in einen einzigen Kontext für umfassende Analyse, ohne Informationen durch Chunking oder Zusammenfassung zu verlieren.

95%+ Abrufgenauigkeit bis 8M Token in Needle-in-a-Haystack-Tests
89 % Genauigkeit bei der vollen 10M-Token-Grenze für zuverlässigen Long-Range-Abruf
Verarbeite 50K+ Codezeilen über Hunderte von Dateien gleichzeitig
Analysiere komplette Forschungspaper-Sammlungen ohne Dokumente aufzuteilen
Behalte den vollständigen Gesprächsverlauf über ausgedehnte Multi-Turn-Sessions bei

Long-Context-Aufgaben testen Benchmarks ansehen

MoE-Architektur

Wie Llama 4 Scout 109B Kapazität zu 17B Kosten liefert

Die 16-Experten-MoE-Architektur von Llama 4 Scout aktiviert nur 17B Parameter pro Token und behält dabei die Repräsentationskapazität eines deutlich größeren Modells bei. Das macht ein Deployment auf einem einzelnen Node praktikabel und liefert trotzdem starke Leistung bei Reasoning, Coding und Analyseaufgaben.

16 Experten mit 17B aktiven Parametern pro Forward Pass für effiziente Inferenz
Gleiche aktive Parameterzahl wie Maverick bei deutlich geringerem Gesamtspeicherbedarf
Praktikabel für Single-Node-Deployment-Szenarien mit weniger GPU-Anforderungen
Sparse Routing stellt sicher, dass jeder Token spezialisierte Experten-Aufmerksamkeit erhält
Niedrigere Betriebskosten im Vergleich zu dichten Modellen mit ähnlicher Gesamtparameterzahl

Chat starten Mit Maverick vergleichen

Multimodal

Multimodale Fähigkeiten von Llama 4 Scout

Llama 4 Scout nutzt Early-Fusion-Architektur, um Text und Bilder nativ gemeinsam zu verarbeiten. Das visuelle Verständnis ist von Grund auf in das Modell integriert, anstatt als separates Modul hinzugefügt zu werden, und ermöglicht nahtloses Reasoning über beide Modalitäten innerhalb desselben riesigen Kontextfensters.

69,4 % auf dem MMMU-Multimodal-Benchmark für starkes visuelles Reasoning
Early-Fusion-Architektur verarbeitet Bilder und Text in einem einheitlichen Stream
Analysiere Screenshots, Diagramme, Flussdiagramme und technische Zeichnungen zusammen mit Code
Kombiniere visuelle Dokumentenanalyse mit dem vollen 10M-Token-Kontextfenster
Keine separate Vision-Pipeline nötig, was die Deployment-Komplexität reduziert

Loslegen

Llama 4 Scout jetzt ausprobieren

Starte sofort einen Chat oder lade Gewichte für Self-Hosted-Deployment herunter.

Mit Scout chatten

Teste Llama 4 Scout sofort - kein Setup nötig

Model Card

Vollständige technische Spezifikationen und Benchmarks

Dokumentation

Integrationsleitfäden und Best Practices

Download & Deployment

Self-Hosted-Deployment

Lade offizielle Modellgewichte für das Deployment auf deiner eigenen Infrastruktur herunter.

Hugging Face

Offizielles Llama 4 Scout Model Repository

Ollama

Lokal mit Ollama ausführen

GitHub

Quellcode und Beispiele

FAQ

Häufig gestellte Fragen zu Llama 4 Scout

Antworten auf die häufigsten Fragen, die Entwickler und Forscher zum Betrieb, Deployment und zur optimalen Nutzung von Llama 4 Scout stellen.

Wie viel VRAM braucht Llama 4 Scout für den lokalen Betrieb?

Die Vollpräzisions-Version von Llama 4 Scout benötigt etwa 220 GB VRAM, was typischerweise ein Multi-GPU-Setup mit mindestens zwei A100 80 GB Karten erfordert. Quantisierte Versionen reduzieren dies erheblich. INT8-Quantisierung senkt den Bedarf auf etwa 110 GB, und INT4-Quantisierung passt auf ungefähr 55 GB, was es auf High-End-Consumer-Setups mit mehreren GPUs zugänglich macht.

Kann Llama 4 Scout ein ganzes GitHub-Repository verarbeiten?

Ja. Das 10-Millionen-Token-Kontextfenster von Llama 4 Scout kann etwa 50.000 Codezeilen über Hunderte von Dateien gleichzeitig aufnehmen. Das bedeutet, dass die meisten mittelgroßen Repositories vollständig in einen einzigen Kontextaufruf passen, was dateiübergreifende Analyse, Dependency-Tracking und Architektur-Review ohne Chunking oder Kontextverlust zwischen Dateien ermöglicht.

Was ist der Unterschied zwischen Llama 4 Scout und Maverick?

Llama 4 Scout ist für Long-Context-Aufgaben mit seinem 10M-Token-Fenster und 16 Experten (109B Gesamtparameter) optimiert. Maverick priorisiert Rohqualität mit 128 Experten und 400B Gesamtparametern, hat aber ein 1M-Token-Kontextfenster. Beide aktivieren 17B Parameter pro Token. Wähle Scout, wenn du massiven Kontext brauchst, und Maverick, wenn du maximale Benchmark-Leistung willst.

Ist Llama 4 Scout für kommerzielle Nutzung kostenlos?

Ja. Llama 4 Scout wird unter der Llama 3.1 kompatiblen Lizenz veröffentlicht, die kommerzielle Nutzung erlaubt. Du kannst es in Produktionsanwendungen einsetzen, Produkte darauf aufbauen und es für deine spezifischen Bedürfnisse feinabstimmen. Die Lizenz enthält bestimmte Nutzungsschwellen für sehr große Deployments, also prüfe die vollständigen Lizenzbedingungen, wenn deine Anwendung Hunderte Millionen Nutzer bedient.

Wie funktioniert das 10-Millionen-Token-Kontextfenster von Llama 4 Scout?

Das 10M-Token-Kontextfenster ermöglicht es Llama 4 Scout, bis zu 10 Millionen Token in einem einzigen Inferenzaufruf zu akzeptieren und zu verarbeiten. Dies wird durch architektonische Innovationen bei Positionskodierung und Aufmerksamkeitsmechanismen erreicht, die Kohärenz über extrem lange Sequenzen aufrechterhalten. Needle-in-a-Haystack-Tests zeigen 95 % Abrufgenauigkeit bis 8M Token und 89 % bei der vollen 10M-Grenze.

Welche Programmiersprachen unterstützt Llama 4 Scout für Code-Analyse?

Llama 4 Scout unterstützt alle gängigen Programmiersprachen, darunter Python, JavaScript, TypeScript, Java, C++, Go, Rust und viele mehr. Die Trainingsdaten decken ein breites Spektrum an Open-Source-Repositories ab. Der eigentliche Vorteil ist das Kontextfenster: Du kannst ganze Multi-Language-Projekte laden und sprachübergreifende Interaktionen, API-Grenzen und Full-Stack-Architekturen in einem einzigen Aufruf analysieren.

Llama 4 Familie