Llama 4 Scout
10 Millionen Token Kontext - das längste Fenster aller offenen Modelle
Llama 4 Scout ist Metas Long-Context-Spezialist. Mit 109B Gesamtparametern, 17B aktiv pro Token über 16 Experten und einem 10M-Token-Kontextfenster kann es ganze Codebasen, Multi-Dokument-Forschungsbibliotheken und stundenlange Gesprächsverläufe in einem einzigen Aufruf verarbeiten.
Modellvarianten
Instruction-tuned und Basismodelle
Wähle zwischen der Instruction-tuned-Variante, optimiert für Chat und Long-Context-Aufgaben, oder dem Basismodell für Feinabstimmung und individuelle Anwendungen.
Mixture-of-Experts-Architektur
109B Gesamtparameter, 17B aktiv pro Token
Llama 4 Scout nutzt ein Sparse-MoE-Design mit 16 Experten und aktiviert 17B Parameter pro Forward Pass. Das herausragende Merkmal ist das 10-Millionen-Token-Kontextfenster - das längste aller offen verfügbaren Modelle.
Ideal für Aufgaben, die massive Textmengen erfordern: ganze Codebasen, Multi-Dokument-Analysen, lange Forschungsarbeiten und ausgedehnte Gesprächsverläufe.
Instruction-tuned
Scout Instruct
Optimiert für konversationelle KI und Long-Context-Aufgaben
Feinabgestimmt für Instruktionsbefolgung, Multi-Turn-Dialog und die Verarbeitung sehr langer Eingaben
Vortrainiert
Scout Base
MoE-Basismodell für Feinabstimmung und spezialisierte Anwendungen
Vortrainiert auf vielfältigen multimodalen Daten mit 16-Experten-Routing
Fähigkeiten
Gebaut für massiven Kontext und multimodales Verständnis
Llama 4 Scout kombiniert ein beispielloses 10M-Token-Kontextfenster mit MoE-Effizienz, nativem multimodalem Support und starken Reasoning-Fähigkeiten.
10M-Token-Kontextfenster
Das längste Kontextfenster aller offen verfügbaren Modelle. Verarbeite ganze Codebasen, Multi-Dokument-Forschungsbibliotheken oder stundenlange Gespräche in einem einzigen Aufruf.
MoE-Effizienz
Aktiviert nur 17B Parameter pro Token aus einem 109B-Pool über 16 Experten. Starke Leistung bei einem Bruchteil der Rechenkosten dichter Modelle.
Code-Analyse im großen Maßstab
Lade ganze Repositories in den Kontext für dateiübergreifende Analyse, Dependency-Tracking und großflächige Refactoring-Aufgaben.
Agentische Workflows
Nativer Function-Calling- und Tool-Use-Support ermöglicht autonome Agenten. Baue Workflows, die mehrere Tools verketten - ohne Feinabstimmung.
Mehrsprachiger Support
Starke Leistung in mehreren Sprachen mit kulturellem Kontextverständnis für globale Anwendungen.
Nativ multimodal
Verarbeite Text und Bilder gemeinsam mit Early-Fusion-Architektur. Analysiere Screenshots, Diagramme und Dokumente zusammen mit Text.
Wichtige Highlights
Warum Scouts Kontextfenster entscheidend ist
Ein 10M-Token-Kontextfenster verändert, was mit einem einzigen Modellaufruf möglich ist.
Was in 10M Token passt
- Eine komplette mittelgroße Codebasis (50.000+ Zeilen über Hunderte von Dateien)
- Mehrere Forschungsarbeiten oder ein ganzes Buch
- Stundenlange Meeting-Transkripte oder Gesprächsverläufe
- Vollständige Dokumentationssets für komplexe Systeme
- 95%+ Retrieval-Genauigkeit bis 8M Token in Needle-in-a-Haystack-Tests
Technische Spezifikationen
- 109B Gesamtparameter, 17B aktiv pro Token
- 16 Experten in MoE-Architektur
- 10M-Token-Kontextfenster
- Nativ multimodal (Text + Bild)
- Llama 3.1 kompatible Lizenz
Leistung
Long-Context-Spezialist mit wettbewerbsfähigem Reasoning
Llama 4 Scout liefert starke Leistung über Standard-Benchmarks hinweg und bietet gleichzeitig ein unerreichtes 10M-Token-Kontextfenster für Long-Document-Aufgaben.
Scout ist optimiert für Aufgaben, die die Verarbeitung großer Kontextmengen erfordern. Während Maverick bei reinen Benchmark-Scores führt, macht Scouts 10M-Kontextfenster es zur klaren Wahl für Long-Document-Workflows.
10M-Token-Kontextfenster - das längste aller offenen Modelle
95%+ Retrieval-Genauigkeit bis 8M Token
17B aktive Parameter aus 109B gesamt (16 Experten)
Wettbewerbsfähig mit Modellen der 2-3-fachen aktiven Parameterzahl
Nativer multimodaler Support für Text- und Bildeingaben
Benchmark-Vergleich
Scout vs Maverick und die Llama-4-Familie
Scout tauscht etwas reine Benchmark-Leistung gegen seinen massiven Kontextfenster-Vorteil ein.
| Benchmark | Llama 4 Scout 16 Experten Vorgestellt | Llama 4 Maverick 128 Experten | Llama 3.1 70B Dense |
|---|---|---|---|
MMLU Pro Wissen & Reasoning | 74.3% | 80.5% | 66.4% |
GPQA Diamond Wissenschaftliches Wissen | 57.2% | 69.8% | 46.7% |
LiveCodeBench v5 Coding | 32.8% | 43.4% | 28.5% |
MMMU Multimodal | 69.4% | 73.4% | - |
Context Window Max. Token | 10M | 1M | 128K |
Total Parameters Modellgröße | 109B | 400B | 70B |
Active Parameters Pro Token | 17B | 17B | 70B |
Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.
Long Context
10M Token: ganze Codebasen in einem Aufruf verarbeiten
Scouts 10M-Token-Kontextfenster ist das längste aller offen verfügbaren Modelle. Lade ganze Repositories, Multi-Dokument-Forschungssets oder stundenlange Transkripte in einen einzigen Kontext für umfassende Analyse.
- 95%+ Retrieval-Genauigkeit bis 8M Token in Needle-in-a-Haystack-Tests
- 89% Genauigkeit am vollen 10M-Token-Limit
- Verarbeite 50.000+ Codezeilen über Hunderte von Dateien gleichzeitig
MoE-Architektur
109B Kapazität bei 17B Inferenzkosten
Scouts 16-Experten-MoE-Architektur aktiviert nur 17B Parameter pro Token und behält dabei die Repräsentationskapazität eines viel größeren Modells. Das macht den Einsatz auf einem einzelnen Node praktikabel und liefert trotzdem starke Leistung.
- 16 Experten mit 17B aktiven Parametern pro Forward Pass
- Gleiche aktive Parameterzahl wie Maverick bei geringerem Gesamtspeicher
- Praktikabel für Single-Node-Deployment-Szenarien
Loslegen
Llama 4 Scout jetzt ausprobieren
Starte sofort einen Chat oder lade Gewichte für selbstgehostetes Deployment herunter.
Herunterladen & Deployen
Selbstgehostetes Deployment
Lade offizielle Modellgewichte für das Deployment auf deiner eigenen Infrastruktur herunter.
Llama-4-Familie
Die gesamte Llama-4-Reihe entdecken
Scout ist Teil von Metas Llama-4-Familie. Vergleiche es mit Maverick und sieh, wie es sich gegen andere offene Modelle schlägt.
Loslegen
Bereit, Llama 4 Scout auszuprobieren?
Starte sofort einen kostenlosen Chat oder lade das Modell für selbstgehostetes Deployment herunter. Das 10M-Token-Kontextfenster wartet.