Llama-4-Modelle
Zwei Modelle, eine Familie - von Long Context bis Frontier-Qualität
Die Llama-4-Familie umfasst zwei MoE-Modelle: Scout für massiven Kontext (10M Token) und Maverick für maximale Qualität (128 Experten, 400B Parameter). Beide teilen sich 17B aktive Parameter pro Token und nativen multimodalen Support.
Alle Modelle
Das richtige Llama 4 für deinen Anwendungsfall
Scout und Maverick sind für unterschiedliche Szenarien optimiert. Scout glänzt bei Long-Context-Aufgaben, Maverick bei maximaler Qualität.
Llama 4 Scout
10M-Kontextfenster - der Long-Context-Spezialist
109B Gesamtparameter über 16 Experten mit 17B aktiv pro Token. Das herausragende Merkmal ist das 10-Millionen-Token-Kontextfenster - das längste aller offen verfügbaren Modelle.
Wähle Scout, wenn du ganze Codebasen, Multi-Dokument-Forschungssets oder sehr lange Gesprächsverläufe in einem einzigen Aufruf verarbeiten musst.
Llama 4 Maverick
128 Experten, 400B Parameter - das Qualitäts-Flaggschiff
400B Gesamtparameter über 128 Experten mit 17B aktiv pro Token. Übertrifft GPT-4o in wichtigen Benchmarks. Das Standard-Chatmodell auf dieser Seite.
Wähle Maverick, wenn du maximale Qualität für Reasoning, Coding, multimodale Analyse und komplexe Aufgaben brauchst.
Long Context
Llama 4 Scout
109B gesamt, 17B aktiv, 16 Experten. 10M-Token-Kontextfenster.
Ideal für: ganze Codebasen, Multi-Dokument-Analyse, lange Forschungsarbeiten, ausgedehnte Gespräche.
Flaggschiff
Llama 4 Maverick
400B gesamt, 17B aktiv, 128 Experten. Schlägt GPT-4o in Benchmarks.
Ideal für: komplexes Reasoning, Code-Generierung, multimodale Aufgaben, Forschungssynthese.
Gemeinsame Fähigkeiten
Was beide Llama-4-Modelle können
Scout und Maverick teilen sich gemeinsame Fähigkeiten, die auf Metas MoE-Architektur aufbauen.
Nativ multimodal
Beide Modelle verarbeiten Text und Bilder nativ mit Early-Fusion-Architektur. Keine separaten Encoder oder Pipelines nötig.
MoE-Effizienz
Beide aktivieren nur 17B Parameter pro Token. Scout nutzt 16 Experten (109B gesamt), Maverick nutzt 128 Experten (400B gesamt).
Function Calling
Eingebautes Function Calling bei beiden Modellen ermöglicht agentische Workflows. Kein Feintuning für Tool-Nutzung nötig.
Erweiterter Kontext
Scout: 10M Token. Maverick: 1M Token. Beide übertreffen die Limits der vorherigen Generation bei Weitem.
Mehrsprachig
Starker mehrsprachiger Support bei beiden Modellen für globale Anwendungen.
Offene Gewichte
Beide Modelle sind vollständig Open-Weight unter der Llama 3.1 kompatiblen Lizenz. Überall deployen, frei modifizieren.
Schnelle Auswahl-Hilfe
Welches Modell solltest du wählen?
Ordne deinen primären Anwendungsfall der richtigen Llama-4-Variante zu.
Wähle Scout, wenn
- Du sehr lange Dokumente verarbeiten musst (10M Token)
- Ganze Codebasen über Hunderte von Dateien analysiert werden sollen
- Multi-Dokument-Forschung und -Synthese gefragt ist
- Ausgedehnte Gesprächsverläufe verarbeitet werden
- Geringere Speicheranforderungen gewünscht sind (109B vs 400B gesamt)
Wähle Maverick, wenn
- Maximale Qualität Priorität hat
- Komplexes Reasoning und wissenschaftliche Aufgaben anstehen
- Code-Generierung und Debugging gefragt sind
- Multimodale Analyse (Screenshots, Diagramme) benötigt wird
- Benchmark-Leistung am wichtigsten ist
Leistung
Vollständiger Benchmark-Vergleich
Scout optimiert auf Kontextlänge, Maverick auf reine Qualität. Beide liefern starke Leistung relativ zu ihren Designzielen.
Die Wahl zwischen Scout und Maverick hängt von deinem Hauptbedarf ab: massiver Kontext oder maximale Qualität. So schneiden sie in den wichtigsten Benchmarks ab.
Maverick: 80,5% MMLU Pro, 73,4% MMMU, schlägt GPT-4o beim Coding
Scout: 10M-Token-Kontext, 95%+ Retrieval bei 8M Token
Beide: 17B aktive Parameter, nativ multimodal, Function Calling
Beide: Open-Weight unter Llama 3.1 kompatibler Lizenz
Vollständiger Vergleich
Scout vs Maverick Seite an Seite
Vollständige Benchmark-Ergebnisse über Reasoning, Coding, Multimodal und Deployment-Metriken.
| Benchmark | Maverick 128 Experten Flaggschiff | Scout 16 Experten Long Context |
|---|---|---|
MMLU Pro Wissen & Reasoning | 80.5% | 74.3% |
GPQA Diamond Wissenschaftliches Wissen | 69.8% | 57.2% |
LiveCodeBench v5 Coding | 43.4% | 32.8% |
MMMU Multimodal | 73.4% | 69.4% |
Context Window Max. Token | 1M | 10M |
Total Parameters Modellgröße | 400B | 109B |
Active Parameters Pro Token | 17B | 17B |
Number of Experts MoE-Routing | 128 | 16 |
Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.
Scout
Scout: wenn Kontextlänge alles ist
Scouts 10M-Token-Kontextfenster ist unerreicht. Es kann ganze Codebasen, Multi-Dokument-Forschungssets und stundenlange Transkripte in einem einzigen Aufruf verarbeiten. Wenn deine Aufgabe sehr lange Eingaben erfordert, ist Scout die klare Wahl.
- 10M-Token-Kontext - das längste aller offenen Modelle
- 95%+ Retrieval-Genauigkeit bis 8M Token
- 109B Gesamtparameter über 16 Experten
Maverick
Maverick: wenn Qualität Priorität hat
Mavericks 128-Experten-Architektur liefert Frontier-Leistung. Es übertrifft GPT-4o in wichtigen Benchmarks und ist aus gutem Grund das Standardmodell auf dieser Seite - es meistert komplexes Reasoning, Coding und multimodale Aufgaben mit Leichtigkeit.
- 80,5% MMLU Pro - Frontier-Wissen und Reasoning
- Übertrifft GPT-4o in Coding-Benchmarks
- 400B Gesamtparameter über 128 Experten
Jetzt testen
Mit Llama 4 chatten
Teste beide Modelle sofort über unsere Chat-Oberfläche.
Herunterladen
Modellgewichte holen
Lade offizielle Gewichte für beide Llama-4-Varianten herunter.
Llama-4-Familie
Jedes Modell erkunden und mit Wettbewerbern vergleichen
Tauche tiefer in die einzelnen Llama-4-Varianten ein oder sieh, wie sie sich gegen andere Frontier-Open-Modelle schlagen.
Loslegen
Finde dein Llama-4-Modell
Starte kostenlos einen Chat mit beiden Llama-4-Modellen oder lade Gewichte für lokales Deployment herunter.