Llama 4 Maverick
400B Parameter, 128 Experten - Metas leistungsfähigstes offenes Modell
Llama 4 Maverick ist das erste Open-Weight-Modell, das GPT-4o in mehreren Benchmark-Kategorien konsistent übertrifft. Mit 400B Gesamtparametern, die über 128 spezialisierte Experten geroutet werden, und nur 17B aktiv pro Token liefert es Frontier-Klasse-Reasoning, Coding und multimodales Verständnis ohne die Kosten einer proprietären API. Ob du fortgeschrittene Code-Generierung, wissenschaftliche Analyse oder Bildverständnis brauchst - Llama 4 Maverick bringt die Qualität geschlossener Spitzenmodelle in ein Open-Weight-Paket, das du überall deployen kannst.
Modellvarianten
Instruction-Tuned- und Basismodelle
Wähle zwischen der Instruction-Tuned-Variante, die für Chat und komplexe Aufgaben optimiert ist, oder dem Basismodell für Feinabstimmung und Forschung.
128-Experten-MoE-Architektur
400B Gesamtparameter, 17B aktiv pro Token
Maverick skaliert auf 128 Experten gegenüber Scouts 16 und packt 400B Gesamtparameter, während der gleiche 17B-aktive-Footprint pro Token beibehalten wird. Das verleiht ihm deutlich stärkere Reasoning-, Coding- und multimodale Fähigkeiten.
Das Standard-Chatmodell auf dieser Seite. Am besten für Aufgaben, die maximale Qualität erfordern: komplexes Reasoning, Code-Generierung, multimodale Analyse und Forschungssynthese.
Instruction-Tuned
Maverick Instruct
Optimiert für konversationelle KI, komplexes Reasoning und Code-Generierung
Mit RLHF feinabgestimmt für das Befolgen von Anweisungen und Multi-Turn-Dialoge
Vortrainiert
Maverick Base
MoE-Basismodell für Feinabstimmung und spezialisierte Anwendungen
Vortrainiert auf vielfältigen multimodalen Daten mit 128-Experten-Routing
Fähigkeiten
Frontier-Leistung von Llama 4 Maverick
Llama 4 Maverick kombiniert 128-Experten-MoE-Effizienz mit fortgeschrittenem Reasoning, starkem Coding und nativem multimodalem Verständnis. Jede Fähigkeit ist auf maximale Qualität bei 17B aktiven Parametern pro Token abgestimmt und macht es zu einer praktischen Alternative zu proprietären Frontier-Modellen.
128-Experten-MoE
Routet jeden Token durch spezialisierte Experten aus einem Pool von 128. Die 400B Gesamtparameter liefern Frontier-Qualität bei nur 17B Inferenzkosten pro Token. Diese Architektur bedeutet, dass jeder Experte tiefe Spezialisierung in bestimmten Bereichen entwickeln kann - von Mathematik bis kreativem Schreiben - was zu konsistent hoher Qualität bei vielfältigen Aufgaben führt.
Fortgeschrittenes Reasoning
Starke Leistung bei MMLU Pro (80,5 %) und GPQA Diamond (69,8 %) demonstriert tiefes Wissen und wissenschaftliches Reasoning. Llama 4 Maverick bewältigt mehrstufige Logik, mathematische Beweise und komplexe analytische Aufgaben mit einer Genauigkeit, die proprietäre Alternativen erreicht oder übertrifft. Die 128-Experten-Architektur ermöglicht es verschiedenen Experten, bei jedem Reasoning-Schritt spezialisiertes Wissen beizutragen.
Code-Generierung
Übertrifft GPT-4o bei Coding-Benchmarks einschließlich LiveCodeBench v5. Llama 4 Maverick generiert produktionsreifen Code in Dutzenden von Programmiersprachen, debuggt komplexe Probleme und erklärt algorithmische Ansätze klar. Natives Function Calling ermöglicht agentische Workflows, bei denen das Modell autonom Code ausführen, APIs aufrufen und Tool-Operationen verketten kann.
1M Token Kontext
Verarbeite lange Dokumente, Codebasen und ausgedehnte Gespräche innerhalb eines 1-Million-Token-Kontextfensters. Während Scout 10M Token für extreme Long-Context-Aufgaben bietet, reicht das 1M-Fenster von Llama 4 Maverick für die meisten Produktionsanwendungen aus, einschließlich vollständiger Projektanalyse, langer Forschungsarbeiten und Multi-Turn-Gespräche über Hunderte von Austauschen.
Nativ multimodal
Early-Fusion-Architektur verarbeitet Text und Bilder von Grund auf nativ gemeinsam. Analysiere Screenshots, Diagramme, Charts, technische Zeichnungen und Dokumente zusammen mit Text ohne separate Vision-Pipelines. Llama 4 Maverick erreicht 73,4 % auf MMMU und demonstriert starkes visuelles Reasoning, das mit dedizierten Vision-Modellen konkurriert.
Mehrsprachig
Starke Leistung in mehreren Sprachen macht Llama 4 Maverick für globale Anwendungen geeignet. Das Modell bewältigt Übersetzung, sprachübergreifendes Reasoning und kulturell nuancierte Inhaltserstellung mit konsistenter Qualität. Ob deine Nutzer auf Englisch, Chinesisch, Spanisch, Französisch oder in anderen unterstützten Sprachen kommunizieren - die Ausgabequalität bleibt hoch.
Wichtige Highlights
Warum Llama 4 Maverick heraussticht
Llama 4 Maverick ist das erste Open-Weight-Modell, das GPT-4o in mehreren Benchmark-Kategorien konsistent schlägt.
Benchmark-Highlights
- MMLU Pro 80,5 % - wettbewerbsfähig mit proprietären Frontier-Modellen
- GPQA Diamond 69,8 % - starkes wissenschaftliches Reasoning
- MMMU 73,4 % - exzellentes multimodales Verständnis
- Übertrifft GPT-4o bei Coding-Benchmarks
- Arena ELO wettbewerbsfähig mit Top-Tier-Modellen
Technische Daten
- 400B Gesamtparameter, 17B aktiv pro Token
- 128 Experten in MoE-Architektur
- 1M Token Kontextfenster
- Nativ multimodal (Text + Bild)
- Llama 3.1 kompatible Lizenz
Leistung
Frontier-Qualität von Llama 4 Maverick
Llama 4 Maverick erreicht 80,5 % auf MMLU Pro und 73,4 % auf MMMU und übertrifft GPT-4o bei mehreren Benchmarks, während nur 17B Parameter pro Token aktiviert werden.
Die Benchmark-Ergebnisse erzählen eine überzeugende Geschichte, aber die Praxisleistung ist es, wo Llama 4 Maverick sich wirklich beweist. Entwickler berichten, dass die Code-Generierungsqualität mit den besten proprietären Modellen mithalten kann, mit weniger Halluzinationen und genaueren Funktionsimplementierungen. Forscher stellen fest, dass wissenschaftliche Reasoning-Aufgaben gut strukturierte, zitierbewusste Antworten liefern. Die 128-Experten-Architektur bedeutet, dass das Modell für jede Teilaufgabe auf tief spezialisiertes Wissen zurückgreifen kann, was zu Ausgaben führt, die sich wie von einem Domänenexperten anfühlen statt von einem Generalisten.
MMLU Pro 80,5 % - Frontier-Klasse Wissen und Reasoning
GPQA Diamond 69,8 % - starkes wissenschaftliches Reasoning
MMMU 73,4 % - exzellentes multimodales Verständnis
Übertrifft GPT-4o bei Coding-Benchmarks
17B aktive Parameter aus 400B gesamt (128 Experten)
Benchmark-Vergleich
Maverick vs. Scout und vorherige Generation
Mavericks 128-Experten-Architektur liefert signifikante Verbesserungen gegenüber Scout und Llama 3.1 in allen Kategorien.
| Benchmark | Llama 4 Maverick 128 Experten Vorgestellt | Llama 4 Scout 16 Experten | Llama 3.1 70B Dense | GPT-4o Proprietär |
|---|---|---|---|---|
MMLU Pro Wissen & Reasoning | 80.5% | 74.3% | 66.4% | 78.4% |
GPQA Diamond Wissenschaftliches Wissen | 69.8% | 57.2% | 46.7% | 53.6% |
LiveCodeBench v5 Coding | 43.4% | 32.8% | 28.5% | 37.0% |
MMMU Multimodal | 73.4% | 69.4% | - | 69.1% |
Context Window Max. Token | 1M | 10M | 128K | 128K |
Total Parameters Modellgröße | 400B | 109B | 70B | - |
Active Parameters Pro Token | 17B | 17B | 70B | - |
Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.
128-Experten-Skalierung
Wie Llama 4 Maverick 400B Kapazität zu 17B Kosten liefert
Die 128-Experten-MoE-Architektur von Llama 4 Maverick ist eine signifikante Hochskalierung gegenüber Scouts 16 Experten. Jeder Token wird an spezialisierte Experten geroutet, was dem Modell Zugang zu 400B Parametern an Wissen gibt, während nur 17B pro Forward Pass aktiviert werden. Dieses Design ermöglicht Frontier-Klasse-Qualität ohne Frontier-Klasse-Rechenanforderungen.
- 128 Experten vs. Scouts 16 für 8-fach mehr Spezialisierung pro Token
- 400B Gesamtparameter vs. Scouts 109B für tiefere Wissenskapazität
- Gleiche 17B aktive Parameterkosten pro Token wie Scout für effiziente Inferenz
- Jeder Experte entwickelt tiefe Domänenspezialisierung während des Trainings
- Sparse Routing stellt optimale Expertenauswahl für jede Eingabe sicher
Multimodal
Natives Bildverständnis in Llama 4 Maverick
Llama 4 Maverick nutzt Early-Fusion-Architektur, um Text und Bilder nativ gemeinsam zu verarbeiten. Das visuelle Verständnis ist von Grund auf in das Modell integriert, nicht als separates Modul angehängt. Das Ergebnis ist nahtloses Reasoning über beide Modalitäten mit starker Leistung bei visuellen Benchmarks.
- 73,4 % auf dem MMMU-Multimodal-Benchmark, übertrifft GPT-4os 69,1 %
- Early-Fusion-Architektur für native multimodale Verarbeitung ohne separate Pipelines
- Analysiere Screenshots, Diagramme, Charts und technische Dokumente mit Präzision
- Kombiniere visuelle Analyse mit Code-Generierung für UI-Entwicklungs-Workflows
- Verarbeite gemischte Inhalte mit Text und eingebetteten Bildern
Coding
Coding und Function Calling mit Llama 4 Maverick
Llama 4 Maverick übertrifft GPT-4o bei Coding-Benchmarks und bietet natives Function Calling für den Aufbau autonomer Agent-Workflows. Ob du produktionsreifen Code generieren, komplexe Probleme debuggen oder Tool-nutzende Agenten bauen willst - die 128-Experten-Architektur liefert spezialisiertes Wissen über Programmiersprachen und Frameworks hinweg.
- 43,4 % auf LiveCodeBench v5, übertrifft GPT-4os 37,0 % im selben Benchmark
- Natives Function Calling ermöglicht autonome Agent-Workflows ohne Feinabstimmung
- Generiere produktionsreifen Code in Python, JavaScript, TypeScript, Rust und mehr
- Debugge komplexe Multi-File-Probleme mit vollem Kontextbewusstsein über deine Codebasis
- Verkette mehrere Tool-Aufrufe für End-to-End-Aufgabenautomatisierung in agentischen Anwendungen
Loslegen
Llama 4 Maverick jetzt ausprobieren
Starte sofort einen Chat oder lade Gewichte für Self-Hosted-Deployment herunter.
Download & Deployment
Self-Hosted-Deployment
Lade offizielle Modellgewichte für das Deployment auf deiner eigenen Infrastruktur herunter.
FAQ
Häufig gestellte Fragen zu Llama 4 Maverick
Antworten auf die häufigsten Fragen zu Leistung, Deployment und praktischer Nutzung von Llama 4 Maverick.
Ja. Llama 4 Maverick übertrifft GPT-4o bei mehreren wichtigen Benchmarks. Es erreicht 80,5 % auf MMLU Pro gegenüber GPT-4os 78,4 %, 69,8 % auf GPQA Diamond gegenüber 53,6 % und 43,4 % auf LiveCodeBench v5 gegenüber 37,0 %. Bei multimodalen Aufgaben erreicht es 73,4 % auf MMMU gegenüber GPT-4os 69,1 %. Diese Ergebnisse stammen aus Metas offiziellen Evaluierungen und unabhängigen Tests.
Llama 4 Maverick in voller Präzision auszuführen erfordert etwa 800 GB VRAM, was typischerweise einen Cluster von 8 oder mehr A100 80 GB GPUs bedeutet. Mit INT8-Quantisierung lässt sich das auf etwa 400 GB reduzieren (ungefähr 5 A100 GPUs). INT4-Quantisierung senkt es weiter auf etwa 200 GB. Cloud-Anbieter bieten auch gehosteten API-Zugang an, wenn lokales Deployment für dein Setup nicht praktikabel ist.
Die 128-Experten-Mixture-of-Experts-Architektur ermöglicht es Llama 4 Maverick, 400B Parameter an Wissen zu speichern, während bei der Inferenz nur 17B pro Token aktiviert werden. Jeder Experte entwickelt während des Trainings tiefe Spezialisierung, sodass der Routing-Mechanismus die relevantesten Experten für jede Eingabe auswählen kann. Das gibt dem Modell die Wissenstiefe eines 400B-Dense-Modells bei einem Bruchteil der Rechenkosten.
Ja. Llama 4 Maverick wird unter der Llama 3.1 kompatiblen Lizenz veröffentlicht, die kommerzielle Nutzung erlaubt. Du kannst Produkte bauen, Dienste deployen und das Modell für deine spezifischen Geschäftsanforderungen feinabstimmen. Die Lizenz enthält Nutzungsschwellen für sehr große Deployments, also prüfe die vollständigen Bedingungen, wenn deine Anwendung Hunderte Millionen monatlich aktive Nutzer bedient.
Llama 4 Maverick nutzt Early-Fusion-Architektur, was bedeutet, dass Bildverständnis von Grund auf in das Modell integriert ist, anstatt als separater Vision-Encoder hinzugefügt zu werden. Es verarbeitet Text und Bilder in einem einheitlichen Stream und ermöglicht natürliches Reasoning über beide Modalitäten. Es erreicht 73,4 % auf MMMU und demonstriert starke Leistung bei Aufgaben, die das Verständnis von Charts, Diagrammen, Screenshots und Dokumenten erfordern.
Mehrere Cloud-Anbieter bieten gehosteten API-Zugang zu Llama 4 Maverick an, darunter Dienste auf AWS, Google Cloud, Azure und spezialisierte Inferenz-Plattformen wie Together AI, Fireworks und Groq. Du kannst auch selbst hosten mit Frameworks wie vLLM oder TGI. Für schnelles Experimentieren nutzt die Chat-Oberfläche auf dieser Seite Llama 4 Maverick als Standardmodell ohne Setup.
Llama 4 Familie
Entdecke die gesamte Llama-4-Reihe
Maverick ist Metas Open-Weight-Flaggschiff. Vergleiche es mit Scout und sieh, wie es sich gegen andere Frontier-Modelle schlägt.
Loslegen
Bereit, Llama 4 Maverick auszuprobieren?
Starte sofort einen kostenlosen Chat. Maverick ist das Standardmodell auf dieser Seite - kein Setup nötig.