Llama 4 Scout
10 Millionen Token Kontext - das längste Fenster aller offenen Modelle
Llama 4 Scout definiert neu, was ein einzelner Modellaufruf leisten kann. Aufgebaut auf Metas Mixture-of-Experts-Architektur mit 109B Gesamtparametern und nur 17B aktiv pro Token, bietet es das längste Kontextfenster aller frei verfügbaren Modelle mit 10 Millionen Token. Lade eine komplette Codebasis mit Hunderten von Dateien, eine vollständige Forschungsbibliothek mit Dutzenden von Papers oder stundenlange Meeting-Transkripte. Wo andere Modelle dich zum Aufteilen und Zusammenfassen zwingen, verarbeitet Llama 4 Scout alles auf einmal und bewahrt dokumentübergreifende Zusammenhänge und subtile Verbindungen, die beim Chunking verloren gehen würden.
Modellvarianten
Instruction-Tuned- und Basismodelle
Wähle zwischen der Instruction-Tuned-Variante, die für Chat und Long-Context-Aufgaben optimiert ist, oder dem Basismodell für Feinabstimmung und individuelle Anwendungen.
Mixture-of-Experts-Architektur
109B Gesamtparameter, 17B aktiv pro Token
Llama 4 Scout nutzt ein Sparse-MoE-Design mit 16 Experten und aktiviert 17B Parameter pro Forward Pass. Das herausragende Merkmal ist das Kontextfenster von 10 Millionen Token - das längste aller frei verfügbaren Modelle.
Ideal für Aufgaben, die die Verarbeitung großer Textmengen erfordern: komplette Codebasen, Multi-Dokument-Analysen, lange Forschungsarbeiten und ausgedehnte Gesprächsverläufe.
Instruction-Tuned
Scout Instruct
Optimiert für konversationelle KI und Long-Context-Aufgaben
Feinabgestimmt für das Befolgen von Anweisungen, Multi-Turn-Dialoge und die Verarbeitung sehr langer Eingaben
Vortrainiert
Scout Base
MoE-Basismodell für Feinabstimmung und spezialisierte Anwendungen
Vortrainiert auf vielfältigen multimodalen Daten mit 16-Experten-Routing
Fähigkeiten
Was Llama 4 Scout zum Long-Context-Kraftpaket macht
Llama 4 Scout kombiniert ein beispielloses 10M-Token-Kontextfenster mit MoE-Effizienz, nativer multimodaler Unterstützung und starken Reasoning-Fähigkeiten. Jede Funktion ist darauf ausgelegt, Aufgaben zu bewältigen, die die Verarbeitung großer Informationsmengen in einem einzigen Durchgang erfordern.
10M Token Kontextfenster
Das längste Kontextfenster aller frei verfügbaren Modelle. Verarbeite komplette Codebasen mit über 50.000 Zeilen in Hunderten von Dateien, Multi-Dokument-Forschungsbibliotheken oder stundenlange Gespräche in einem einzigen Aufruf. Needle-in-a-Haystack-Tests bestätigen eine Abrufgenauigkeit von 95 % bis 8 Millionen Token und 89 % bei der vollen 10-Millionen-Token-Grenze.
MoE-Effizienz
Aktiviert nur 17B Parameter pro Token aus einem Pool von 109B über 16 Experten. Diese Sparse-Routing-Strategie liefert starke Leistung bei einem Bruchteil der Rechenkosten dichter Modelle mit vergleichbarer Gesamtparameterzahl. Das Ergebnis: praktisches Deployment auf weniger GPUs, als man für ein Modell dieser Kapazität erwarten würde.
Code-Analyse im großen Maßstab
Lade ganze Repositories in den Kontext für dateiübergreifende Analyse, Dependency-Tracking und umfangreiche Refactoring-Aufgaben. Llama 4 Scout kann Funktionsaufrufe über Module hinweg verfolgen, ungenutzte Imports identifizieren und Architekturverbesserungen vorschlagen - und dabei das Gesamtbild deiner Codebasis gleichzeitig im Blick behalten.
Agentische Workflows
Natives Function Calling und Tool-Nutzung ermöglichen autonome Agenten ohne zusätzliche Feinabstimmung. Baue Workflows, die mehrere Tools verketten, Datenbanken abfragen, APIs aufrufen und Ergebnisse sequenziell verarbeiten. Das erweiterte Kontextfenster bedeutet, dass Agenten über viele Interaktionsschritte hinweg einen umfangreichen Zustand beibehalten können.
Mehrsprachige Unterstützung
Starke Leistung in mehreren Sprachen mit kulturellem Kontextverständnis für globale Anwendungen. Ob du Dokumente auf Englisch, Chinesisch, Spanisch oder in anderen unterstützten Sprachen analysierst - Llama 4 Scout liefert konsistente Qualität und nuanciertes Verständnis über Sprachgrenzen hinweg.
Nativ multimodal
Verarbeite Text und Bilder gemeinsam mit Early-Fusion-Architektur. Analysiere Screenshots, Diagramme, Charts und Dokumente zusammen mit Text, ohne separate Vision-Pipelines zu benötigen. Die multimodale Fähigkeit ist von Grund auf in das Modell integriert und ermöglicht nahtloses Reasoning über visuelle und textuelle Informationen.
Wichtige Highlights
Warum das Kontextfenster von Llama 4 Scout so wichtig ist
Ein 10M-Token-Kontextfenster verändert, was mit einem einzigen Modellaufruf möglich ist.
Was in 10M Token passt
- Eine komplette mittelgroße Codebasis (50K+ Zeilen über Hunderte von Dateien)
- Mehrere Forschungsarbeiten oder ein ganzes Buch
- Stundenlange Meeting-Transkripte oder Gesprächsverläufe
- Vollständige Dokumentationssets für komplexe Systeme
- 95%+ Abrufgenauigkeit bis 8M Token in Needle-in-a-Haystack-Tests
Technische Daten
- 109B Gesamtparameter, 17B aktiv pro Token
- 16 Experten in MoE-Architektur
- 10M Token Kontextfenster
- Nativ multimodal (Text + Bild)
- Llama 3.1 kompatible Lizenz
Leistung
Long-Context-Spezialist mit wettbewerbsfähigem Reasoning
Llama 4 Scout liefert starke Leistung bei Standard-Benchmarks und bietet gleichzeitig ein unerreichtes 10M-Token-Kontextfenster für Long-Document-Aufgaben.
Im praktischen Einsatz glänzt Llama 4 Scout, wenn Aufgaben die Verarbeitung großer Informationsmengen erfordern. Entwickler berichten, dass sie erfolgreich ganze GitHub-Repositories für umfassende Code-Reviews laden, Forscher füttern komplette Paper-Sammlungen für Literatursynthesen, und Rechtsteams verarbeiten vollständige Vertragsbibliotheken für Klauselvergleiche. Während Maverick bei reinen Benchmark-Werten führt, macht Scouts 10M-Kontextfenster es zur klaren Wahl für Workflows, bei denen es wertvoller ist, alles auf einmal zu sehen, als marginale Qualitätsgewinne bei kurzen Prompts.
10M Token Kontextfenster - das längste aller offenen Modelle
95%+ Abrufgenauigkeit bis 8M Token
17B aktive Parameter aus 109B gesamt (16 Experten)
Wettbewerbsfähig mit Modellen der 2-3-fachen aktiven Parameterzahl
Native multimodale Unterstützung für Text- und Bildeingaben
Benchmark-Vergleich
Scout vs. Maverick und die Llama-4-Familie
Scout tauscht etwas reine Benchmark-Leistung gegen seinen massiven Kontextfenster-Vorteil ein.
| Benchmark | Llama 4 Scout 16 Experten Vorgestellt | Llama 4 Maverick 128 Experten | Llama 3.1 70B Dense |
|---|---|---|---|
MMLU Pro Wissen & Reasoning | 74.3% | 80.5% | 66.4% |
GPQA Diamond Wissenschaftliches Wissen | 57.2% | 69.8% | 46.7% |
LiveCodeBench v5 Coding | 32.8% | 43.4% | 28.5% |
MMMU Multimodal | 69.4% | 73.4% | - |
Context Window Max. Token | 10M | 1M | 128K |
Total Parameters Modellgröße | 109B | 400B | 70B |
Active Parameters Pro Token | 17B | 17B | 70B |
Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.
Long Context
10M Token: Verarbeite ganze Codebasen mit Llama 4 Scout
Das 10M-Token-Kontextfenster von Llama 4 Scout ist das längste aller frei verfügbaren Modelle. Lade ganze Repositories, Multi-Dokument-Forschungssets oder stundenlange Transkripte in einen einzigen Kontext für umfassende Analyse, ohne Informationen durch Chunking oder Zusammenfassung zu verlieren.
- 95%+ Abrufgenauigkeit bis 8M Token in Needle-in-a-Haystack-Tests
- 89 % Genauigkeit bei der vollen 10M-Token-Grenze für zuverlässigen Long-Range-Abruf
- Verarbeite 50K+ Codezeilen über Hunderte von Dateien gleichzeitig
- Analysiere komplette Forschungspaper-Sammlungen ohne Dokumente aufzuteilen
- Behalte den vollständigen Gesprächsverlauf über ausgedehnte Multi-Turn-Sessions bei
MoE-Architektur
Wie Llama 4 Scout 109B Kapazität zu 17B Kosten liefert
Die 16-Experten-MoE-Architektur von Llama 4 Scout aktiviert nur 17B Parameter pro Token und behält dabei die Repräsentationskapazität eines deutlich größeren Modells bei. Das macht ein Deployment auf einem einzelnen Node praktikabel und liefert trotzdem starke Leistung bei Reasoning, Coding und Analyseaufgaben.
- 16 Experten mit 17B aktiven Parametern pro Forward Pass für effiziente Inferenz
- Gleiche aktive Parameterzahl wie Maverick bei deutlich geringerem Gesamtspeicherbedarf
- Praktikabel für Single-Node-Deployment-Szenarien mit weniger GPU-Anforderungen
- Sparse Routing stellt sicher, dass jeder Token spezialisierte Experten-Aufmerksamkeit erhält
- Niedrigere Betriebskosten im Vergleich zu dichten Modellen mit ähnlicher Gesamtparameterzahl
Multimodal
Multimodale Fähigkeiten von Llama 4 Scout
Llama 4 Scout nutzt Early-Fusion-Architektur, um Text und Bilder nativ gemeinsam zu verarbeiten. Das visuelle Verständnis ist von Grund auf in das Modell integriert, anstatt als separates Modul hinzugefügt zu werden, und ermöglicht nahtloses Reasoning über beide Modalitäten innerhalb desselben riesigen Kontextfensters.
- 69,4 % auf dem MMMU-Multimodal-Benchmark für starkes visuelles Reasoning
- Early-Fusion-Architektur verarbeitet Bilder und Text in einem einheitlichen Stream
- Analysiere Screenshots, Diagramme, Flussdiagramme und technische Zeichnungen zusammen mit Code
- Kombiniere visuelle Dokumentenanalyse mit dem vollen 10M-Token-Kontextfenster
- Keine separate Vision-Pipeline nötig, was die Deployment-Komplexität reduziert
Loslegen
Llama 4 Scout jetzt ausprobieren
Starte sofort einen Chat oder lade Gewichte für Self-Hosted-Deployment herunter.
Download & Deployment
Self-Hosted-Deployment
Lade offizielle Modellgewichte für das Deployment auf deiner eigenen Infrastruktur herunter.
FAQ
Häufig gestellte Fragen zu Llama 4 Scout
Antworten auf die häufigsten Fragen, die Entwickler und Forscher zum Betrieb, Deployment und zur optimalen Nutzung von Llama 4 Scout stellen.
Die Vollpräzisions-Version von Llama 4 Scout benötigt etwa 220 GB VRAM, was typischerweise ein Multi-GPU-Setup mit mindestens zwei A100 80 GB Karten erfordert. Quantisierte Versionen reduzieren dies erheblich. INT8-Quantisierung senkt den Bedarf auf etwa 110 GB, und INT4-Quantisierung passt auf ungefähr 55 GB, was es auf High-End-Consumer-Setups mit mehreren GPUs zugänglich macht.
Ja. Das 10-Millionen-Token-Kontextfenster von Llama 4 Scout kann etwa 50.000 Codezeilen über Hunderte von Dateien gleichzeitig aufnehmen. Das bedeutet, dass die meisten mittelgroßen Repositories vollständig in einen einzigen Kontextaufruf passen, was dateiübergreifende Analyse, Dependency-Tracking und Architektur-Review ohne Chunking oder Kontextverlust zwischen Dateien ermöglicht.
Llama 4 Scout ist für Long-Context-Aufgaben mit seinem 10M-Token-Fenster und 16 Experten (109B Gesamtparameter) optimiert. Maverick priorisiert Rohqualität mit 128 Experten und 400B Gesamtparametern, hat aber ein 1M-Token-Kontextfenster. Beide aktivieren 17B Parameter pro Token. Wähle Scout, wenn du massiven Kontext brauchst, und Maverick, wenn du maximale Benchmark-Leistung willst.
Ja. Llama 4 Scout wird unter der Llama 3.1 kompatiblen Lizenz veröffentlicht, die kommerzielle Nutzung erlaubt. Du kannst es in Produktionsanwendungen einsetzen, Produkte darauf aufbauen und es für deine spezifischen Bedürfnisse feinabstimmen. Die Lizenz enthält bestimmte Nutzungsschwellen für sehr große Deployments, also prüfe die vollständigen Lizenzbedingungen, wenn deine Anwendung Hunderte Millionen Nutzer bedient.
Das 10M-Token-Kontextfenster ermöglicht es Llama 4 Scout, bis zu 10 Millionen Token in einem einzigen Inferenzaufruf zu akzeptieren und zu verarbeiten. Dies wird durch architektonische Innovationen bei Positionskodierung und Aufmerksamkeitsmechanismen erreicht, die Kohärenz über extrem lange Sequenzen aufrechterhalten. Needle-in-a-Haystack-Tests zeigen 95 % Abrufgenauigkeit bis 8M Token und 89 % bei der vollen 10M-Grenze.
Llama 4 Scout unterstützt alle gängigen Programmiersprachen, darunter Python, JavaScript, TypeScript, Java, C++, Go, Rust und viele mehr. Die Trainingsdaten decken ein breites Spektrum an Open-Source-Repositories ab. Der eigentliche Vorteil ist das Kontextfenster: Du kannst ganze Multi-Language-Projekte laden und sprachübergreifende Interaktionen, API-Grenzen und Full-Stack-Architekturen in einem einzigen Aufruf analysieren.
Llama 4 Familie
Entdecke die gesamte Llama-4-Reihe
Scout ist Teil von Metas Llama-4-Familie. Vergleiche es mit Maverick und sieh, wie es sich gegen andere offene Modelle schlägt.
Loslegen
Bereit, Llama 4 Scout auszuprobieren?
Starte sofort einen kostenlosen Chat oder lade das Modell für Self-Hosted-Deployment herunter. Das 10M-Token-Kontextfenster wartet auf dich.