Llama 4 Models
Zwei Modelle, eine Familie - von Long Context bis Frontier-Qualität
Die Llama 4 Models sind Metas bisher ambitionierteste Open-Weight-Veröffentlichung. Die Familie umfasst zwei Mixture-of-Experts-Architekturen für unterschiedliche Prioritäten: Scout bewältigt massiven Kontext mit einem 10-Millionen-Token-Fenster über 16 Experten, während Maverick Frontier-Klasse-Qualität durch 128 Experten und 400B Gesamtparameter liefert. Beide teilen sich 17B aktive Parameter pro Token und native multimodale Unterstützung, sodass du die richtige Balance zwischen Kontextlänge und Ausgabequalität für deinen spezifischen Workflow wählen kannst.
Alle Modelle
Wähle die richtige Option aus den Llama 4 Models
Scout und Maverick sind für unterschiedliche Szenarien optimiert. Ihre Stärken zu verstehen hilft dir, die Variante zu wählen, die zu deinem Workload passt - ob du ganze Codebasen verarbeiten oder die höchste Qualität bei Reasoning und Code generieren willst.
Llama 4 Scout
10M Kontextfenster - der Long-Context-Spezialist
109B Gesamtparameter über 16 Experten mit 17B aktiv pro Token. Das herausragende Merkmal ist das 10-Millionen-Token-Kontextfenster, das längste aller frei verfügbaren Modelle. Scout glänzt, wenn deine Aufgabe das Aufnehmen großer Informationsmengen auf einmal erfordert - von ganzen Repositories bis zu Multi-Dokument-Forschungssammlungen. Needle-in-a-Haystack-Tests bestätigen 95 % Abrufgenauigkeit bis 8 Millionen Token.
Wähle Scout, wenn du ganze Codebasen, Multi-Dokument-Forschungssets oder sehr lange Gesprächsverläufe in einem einzigen Aufruf verarbeiten musst. Es ist die beste Option, wenn Kontextlänge wichtiger ist als marginale Qualitätsunterschiede.
Llama 4 Maverick
128 Experten, 400B Parameter - das Qualitäts-Flaggschiff
400B Gesamtparameter über 128 Experten mit 17B aktiv pro Token. Maverick übertrifft GPT-4o bei wichtigen Benchmarks einschließlich MMLU Pro, GPQA Diamond und LiveCodeBench. Die 128-Experten-Architektur bietet tiefe Spezialisierung über Domänen hinweg und macht es zum stärksten Open-Weight-Modell für Reasoning, Coding und multimodale Aufgaben. Es bietet ein 1M-Token-Kontextfenster für die meisten Produktionsanforderungen.
Wähle Maverick, wenn du maximale Qualität für Reasoning, Coding, multimodale Analyse und komplexe Aufgabenerledigung brauchst. Es ist aus gutem Grund das Standard-Chatmodell auf dieser Seite.
Long Context
Llama 4 Scout
109B gesamt, 17B aktiv, 16 Experten. 10M Token Kontextfenster.
Ideal für: ganze Codebasen, Multi-Dokument-Analyse, lange Forschungsarbeiten, ausgedehnte Gespräche.
Flaggschiff
Llama 4 Maverick
400B gesamt, 17B aktiv, 128 Experten. Schlägt GPT-4o bei Benchmarks.
Ideal für: komplexes Reasoning, Code-Generierung, multimodale Aufgaben, Forschungssynthese.
Gemeinsame Fähigkeiten
Was alle Llama 4 Models können
Scout und Maverick teilen gemeinsame Fähigkeiten, die auf Metas Mixture-of-Experts-Architektur aufbauen. Diese gemeinsamen Grundlagen bedeuten, dass du zwischen den beiden Varianten wechseln kannst, ohne deinen Integrationscode zu ändern.
Nativ multimodal
Beide Llama 4 Models verarbeiten Text und Bilder nativ mit Early-Fusion-Architektur. Das visuelle Verständnis ist von Grund auf integriert, nicht als separater Encoder hinzugefügt. Das bedeutet, du kannst gemischte Inhalte senden - einschließlich Screenshots, Diagramme und Dokumente zusammen mit Text - und erhältst kohärentes Reasoning über beide Modalitäten.
MoE-Effizienz
Beide Llama 4 Models aktivieren nur 17B Parameter pro Token trotz ihrer großen Gesamtparameterzahlen. Scout nutzt 16 Experten mit 109B gesamt, Maverick nutzt 128 Experten mit 400B gesamt. Diese Sparse-Routing-Strategie liefert starke Leistung bei einem Bruchteil der Rechenkosten äquivalenter dichter Architekturen.
Function Calling
Integriertes Function Calling in beiden Llama 4 Models ermöglicht agentische Workflows ohne zusätzliche Feinabstimmung. Definiere deine Tools, und das Modell entscheidet, wann und wie es sie aufruft. Das macht es einfach, autonome Agenten zu bauen, die Datenbanken abfragen, APIs aufrufen, Code ausführen und Operationen verketten.
Erweiterter Kontext
Scout bietet ein 10M-Token-Kontextfenster für extreme Long-Document-Aufgaben, während Maverick 1M Token für die meisten Produktionsszenarien bereitstellt. Beide übertreffen die 128K-Grenze der vorherigen Generation bei Weitem und geben dir Raum, mehr Kontext, mehr Beispiele und mehr Verlauf in jede Anfrage einzubeziehen.
Mehrsprachig
Starke mehrsprachige Unterstützung in beiden Llama 4 Models ermöglicht globale Anwendungen. Ob deine Nutzer auf Englisch, Chinesisch, Spanisch, Französisch oder in anderen unterstützten Sprachen kommunizieren - beide Varianten liefern konsistente Qualität mit kulturell bewussten Antworten.
Open Weights
Beide Llama 4 Models sind vollständig Open-Weight unter der Llama 3.1 kompatiblen Lizenz. Deploye überall, modifiziere frei und stimme für deine spezifischen Bedürfnisse fein ab. Diese Offenheit bedeutet kein Vendor Lock-in, volle Transparenz über das Modellverhalten und die Möglichkeit, komplett auf deiner eigenen Infrastruktur zu laufen.
Schnelle Auswahlhilfe
Welches der Llama 4 Models solltest du wählen?
Ordne deinen primären Anwendungsfall der richtigen Variante zu.
Wähle Scout, wenn
- Du sehr lange Dokumente verarbeiten musst (10M Token)
- Analyse ganzer Codebasen über Hunderte von Dateien
- Multi-Dokument-Forschung und -Synthese
- Ausgedehnte Gesprächsverläufe
- Geringere Speicheranforderungen (109B vs. 400B gesamt)
Wähle Maverick, wenn
- Maximale Qualität die Priorität ist
- Komplexes Reasoning und wissenschaftliche Aufgaben
- Code-Generierung und Debugging
- Multimodale Analyse (Screenshots, Diagramme)
- Aufgaben, bei denen Benchmark-Leistung am wichtigsten ist
Leistung
Kompletter Benchmark-Vergleich der Llama 4 Models
Scout optimiert für Kontextlänge, Maverick für Rohqualität. Beide liefern starke Leistung relativ zu ihren Designzielen.
Die Wahl zwischen den Llama 4 Models hängt von deinem primären Bedarf ab. Wenn dein Workflow die Verarbeitung großer Mengen an Text, Code oder Dokumenten in einem einzigen Aufruf umfasst, ist Scouts 10M-Token-Kontextfenster unerreicht. Wenn du die höchstmögliche Qualität für Reasoning, Coding oder multimodale Aufgaben brauchst, liefert Mavericks 128-Experten-Architektur Frontier-Klasse-Ergebnisse, die mit den besten proprietären Angeboten konkurrieren. Viele Teams nutzen beide: Maverick für qualitätskritische Aufgaben und Scout für großangelegte Analysen.
Maverick: 80,5 % MMLU Pro, 73,4 % MMMU, schlägt GPT-4o beim Coding
Scout: 10M Token Kontext, 95%+ Abruf bei 8M Token
Beide: 17B aktive Parameter, nativ multimodal, Function Calling
Beide: Open-Weight unter Llama 3.1 kompatibler Lizenz
Vollständiger Vergleich
Scout vs. Maverick Seite an Seite
Vollständige Benchmark-Ergebnisse über Reasoning, Coding, Multimodal und Deployment-Metriken.
| Benchmark | Maverick 128 Experten Flaggschiff | Scout 16 Experten Long Context |
|---|---|---|
MMLU Pro Wissen & Reasoning | 80.5% | 74.3% |
GPQA Diamond Wissenschaftliches Wissen | 69.8% | 57.2% |
LiveCodeBench v5 Coding | 43.4% | 32.8% |
MMMU Multimodal | 73.4% | 69.4% |
Context Window Max. Token | 1M | 10M |
Total Parameters Modellgröße | 400B | 109B |
Active Parameters Pro Token | 17B | 17B |
Number of Experts MoE-Routing | 128 | 16 |
Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.
Scout
Llama 4 Scout: wenn Kontextlänge alles ist
Scouts 10M-Token-Kontextfenster ist unerreicht unter den Llama 4 Models und in der gesamten Open-Weight-Landschaft. Es kann ganze Codebasen, Multi-Dokument-Forschungssets und stundenlange Transkripte in einem einzigen Aufruf verarbeiten. Wenn deine Aufgabe sehr lange Eingaben umfasst, ist Scout die klare Wahl.
- 10M Token Kontext, das längste aller heute verfügbaren offenen Modelle
- 95%+ Abrufgenauigkeit bis 8M Token in Needle-in-a-Haystack-Tests
- 109B Gesamtparameter über 16 Experten mit 17B aktiv pro Token
- Verarbeite ganze GitHub-Repositories für umfassende Code-Reviews
- Ideal für Analyse juristischer Dokumente, Forschungssynthese und Audit-Workflows
Maverick
Llama 4 Maverick: wenn Qualität Priorität hat
Mavericks 128-Experten-Architektur liefert Frontier-Klasse-Leistung, die GPT-4o bei wichtigen Benchmarks übertrifft. Es ist aus gutem Grund das Standardmodell auf dieser Seite: Es bewältigt komplexes Reasoning, Coding und multimodale Aufgaben mit der Qualität, die du von den besten proprietären Alternativen erwarten würdest.
- 80,5 % MMLU Pro für Frontier-Klasse Wissen und Reasoning
- Übertrifft GPT-4o bei Coding-Benchmarks mit 43,4 % auf LiveCodeBench v5
- 400B Gesamtparameter über 128 Experten für tiefe Domänenspezialisierung
- 73,4 % auf MMMU für starkes multimodales Verständnis von Bildern und Dokumenten
- Natives Function Calling für den Aufbau autonomer Agent-Workflows
Auswahlhilfe
Die richtige Option aus den Llama 4 Models wählen
Die Wahl zwischen den Llama 4 Models hängt davon ab, was für deinen spezifischen Workflow am wichtigsten ist. Beide teilen den gleichen 17B-aktive-Parameter-Footprint und native multimodale Unterstützung, sodass die Entscheidung auf Kontextlänge versus Ausgabequalität hinausläuft. Viele Teams finden Wert darin, beide Varianten für verschiedene Teile ihrer Pipeline zu nutzen.
- Wähle Scout für Aufgaben, die die Verarbeitung von mehr als 1 Million Token auf einmal erfordern
- Wähle Maverick für Aufgaben, bei denen Ausgabequalität und Reasoning-Tiefe am wichtigsten sind
- Beide teilen 17B aktive Parameter, sodass die Inferenzkosten pro Token vergleichbar sind
- Nutze Scout für Aufnahme und Analyse, dann Maverick für Synthese und Generierung
- Beide laufen unter der gleichen Open-Weight-Lizenz, sodass du beide frei deployen kannst
Jetzt testen
Starte einen Chat mit Llama 4
Teste beide Modelle sofort über unsere Chat-Oberfläche.
Download
Modellgewichte herunterladen
Lade offizielle Gewichte für beide Llama-4-Varianten herunter.
FAQ
Häufig gestellte Fragen zu Llama 4 Models
Antworten auf die häufigsten Fragen zur Auswahl, zum Betrieb und zum Deployment der Llama 4 Models für deine Projekte.
Es gibt derzeit zwei Llama 4 Models: Scout und Maverick. Jedes kommt in zwei Varianten - eine Instruction-Tuned-Version, die für Chat und Aufgabenerledigung optimiert ist, und eine vortrainierte Basisversion für Feinabstimmung und Forschung. Das ergibt insgesamt vier Checkpoints zur Auswahl, je nachdem ob du ein gebrauchsfertiges Konversationsmodell oder eine Grundlage für individuelles Training brauchst.
Maverick ist die stärkere Wahl für Coding-Aufgaben. Es erreicht 43,4 % auf LiveCodeBench v5 und übertrifft damit sowohl Scout (32,8 %) als auch GPT-4o (37,0 %). Die 128-Experten-Architektur bietet tiefe Spezialisierung über Programmiersprachen und Frameworks hinweg. Wenn du allerdings eine ganze große Codebasis auf einmal analysieren musst, lässt Scouts 10M-Token-Kontextfenster dich alles in einen einzigen Aufruf für dateiübergreifende Analyse laden.
Die Vollversionen erfordern Multi-GPU-Setups. Scout benötigt etwa 220 GB VRAM bei voller Präzision, und Maverick braucht rund 800 GB. Quantisierte Versionen reduzieren diese Anforderungen jedoch erheblich. Scout mit INT4-Quantisierung passt auf ungefähr 55 GB, was mit High-End-Consumer-GPUs erreichbar ist. Maverick mit INT4 braucht immer noch etwa 200 GB und eignet sich eher für Cloud- oder Enterprise-Hardware.
Scout ist für Long-Context-Aufgaben mit einem 10M-Token-Fenster und 16 Experten (109B Gesamtparameter) optimiert. Maverick priorisiert Ausgabequalität mit 128 Experten und 400B Gesamtparametern, hat aber ein 1M-Token-Kontextfenster. Beide aktivieren 17B Parameter pro Token. Stell dir Scout als das Weitwinkelobjektiv und Maverick als das hochauflösende Objektiv im selben Kamerasystem vor.
Ja. Alle Llama 4 Models werden unter der Llama 3.1 kompatiblen Lizenz veröffentlicht, die kommerzielle Nutzung, Feinabstimmung und Weiterverteilung erlaubt. Du kannst sie auf deiner eigenen Infrastruktur deployen, Produkte darauf aufbauen und die Gewichte für deine spezifischen Bedürfnisse modifizieren. Die Lizenz enthält Nutzungsschwellen für sehr große Deployments mit Hunderten Millionen Nutzern.
Das hängt vom Umfang und der Komplexität deiner Dokumente ab. Für die Analyse großer Dokumentensammlungen, Verträge oder Forschungsarbeiten in einem einzigen Durchgang ist Scouts 10M-Token-Kontextfenster ideal. Für kürzere Dokumente, bei denen du die höchste Qualität bei Extraktion, Zusammenfassung oder Reasoning brauchst, liefert Mavericks 128-Experten-Architektur nuanciertere und genauere Ergebnisse. Beide unterstützen natives Bildverständnis für Dokumente mit Charts, Tabellen und Diagrammen.
Llama 4 Familie
Erkunde jedes Modell und vergleiche mit Wettbewerbern
Tauche tiefer in jede Variante ein oder sieh, wie sich die Llama 4 Models gegen andere Frontier-Open-Modelle schlagen.
Loslegen
Finde deine ideale Option unter den Llama 4 Models
Starte einen kostenlosen Chat mit beiden Varianten oder lade Gewichte für lokales Deployment herunter. Beide sind Open-Weight und sofort einsatzbereit.