Llama 4 Maverick

400B Parameter, 128 Experten - Metas leistungsfähigstes offenes Modell

Llama 4 Maverick ist das erste Open-Weight-Modell, das GPT-4o in mehreren Benchmark-Kategorien konsistent übertrifft. Mit 400B Gesamtparametern, die über 128 spezialisierte Experten geroutet werden, und nur 17B aktiv pro Token liefert es Frontier-Klasse-Reasoning, Coding und multimodales Verständnis ohne die Kosten einer proprietären API. Ob du fortgeschrittene Code-Generierung, wissenschaftliche Analyse oder Bildverständnis brauchst - Llama 4 Maverick bringt die Qualität geschlossener Spitzenmodelle in ein Open-Weight-Paket, das du überall deployen kannst.

Chat starten Benchmarks ansehen

Modellvarianten

Instruction-Tuned- und Basismodelle

Wähle zwischen der Instruction-Tuned-Variante, die für Chat und komplexe Aufgaben optimiert ist, oder dem Basismodell für Feinabstimmung und Forschung.

128-Experten-MoE-Architektur

400B Gesamtparameter, 17B aktiv pro Token

Maverick skaliert auf 128 Experten gegenüber Scouts 16 und packt 400B Gesamtparameter, während der gleiche 17B-aktive-Footprint pro Token beibehalten wird. Das verleiht ihm deutlich stärkere Reasoning-, Coding- und multimodale Fähigkeiten.

Das Standard-Chatmodell auf dieser Seite. Am besten für Aufgaben, die maximale Qualität erfordern: komplexes Reasoning, Code-Generierung, multimodale Analyse und Forschungssynthese.

Chat starten Fähigkeiten ansehen

Instruction-Tuned

Maverick Instruct

Optimiert für konversationelle KI, komplexes Reasoning und Code-Generierung

Mit RLHF feinabgestimmt für das Befolgen von Anweisungen und Multi-Turn-Dialoge

Jetzt verfügbar

Chat starten Gewichte herunterladen

Vortrainiert

Maverick Base

MoE-Basismodell für Feinabstimmung und spezialisierte Anwendungen

Vortrainiert auf vielfältigen multimodalen Daten mit 128-Experten-Routing

Jetzt verfügbar

Auf HuggingFace ansehen Dokumentation

Fähigkeiten

Frontier-Leistung von Llama 4 Maverick

Llama 4 Maverick kombiniert 128-Experten-MoE-Effizienz mit fortgeschrittenem Reasoning, starkem Coding und nativem multimodalem Verständnis. Jede Fähigkeit ist auf maximale Qualität bei 17B aktiven Parametern pro Token abgestimmt und macht es zu einer praktischen Alternative zu proprietären Frontier-Modellen.

128-Experten-MoE

Routet jeden Token durch spezialisierte Experten aus einem Pool von 128. Die 400B Gesamtparameter liefern Frontier-Qualität bei nur 17B Inferenzkosten pro Token. Diese Architektur bedeutet, dass jeder Experte tiefe Spezialisierung in bestimmten Bereichen entwickeln kann - von Mathematik bis kreativem Schreiben - was zu konsistent hoher Qualität bei vielfältigen Aufgaben führt.

Fortgeschrittenes Reasoning

Starke Leistung bei MMLU Pro (80,5 %) und GPQA Diamond (69,8 %) demonstriert tiefes Wissen und wissenschaftliches Reasoning. Llama 4 Maverick bewältigt mehrstufige Logik, mathematische Beweise und komplexe analytische Aufgaben mit einer Genauigkeit, die proprietäre Alternativen erreicht oder übertrifft. Die 128-Experten-Architektur ermöglicht es verschiedenen Experten, bei jedem Reasoning-Schritt spezialisiertes Wissen beizutragen.

Code-Generierung

Übertrifft GPT-4o bei Coding-Benchmarks einschließlich LiveCodeBench v5. Llama 4 Maverick generiert produktionsreifen Code in Dutzenden von Programmiersprachen, debuggt komplexe Probleme und erklärt algorithmische Ansätze klar. Natives Function Calling ermöglicht agentische Workflows, bei denen das Modell autonom Code ausführen, APIs aufrufen und Tool-Operationen verketten kann.

1M Token Kontext

Verarbeite lange Dokumente, Codebasen und ausgedehnte Gespräche innerhalb eines 1-Million-Token-Kontextfensters. Während Scout 10M Token für extreme Long-Context-Aufgaben bietet, reicht das 1M-Fenster von Llama 4 Maverick für die meisten Produktionsanwendungen aus, einschließlich vollständiger Projektanalyse, langer Forschungsarbeiten und Multi-Turn-Gespräche über Hunderte von Austauschen.

Nativ multimodal

Early-Fusion-Architektur verarbeitet Text und Bilder von Grund auf nativ gemeinsam. Analysiere Screenshots, Diagramme, Charts, technische Zeichnungen und Dokumente zusammen mit Text ohne separate Vision-Pipelines. Llama 4 Maverick erreicht 73,4 % auf MMMU und demonstriert starkes visuelles Reasoning, das mit dedizierten Vision-Modellen konkurriert.

Mehrsprachig

Starke Leistung in mehreren Sprachen macht Llama 4 Maverick für globale Anwendungen geeignet. Das Modell bewältigt Übersetzung, sprachübergreifendes Reasoning und kulturell nuancierte Inhaltserstellung mit konsistenter Qualität. Ob deine Nutzer auf Englisch, Chinesisch, Spanisch, Französisch oder in anderen unterstützten Sprachen kommunizieren - die Ausgabequalität bleibt hoch.

Wichtige Highlights

Warum Llama 4 Maverick heraussticht

Llama 4 Maverick ist das erste Open-Weight-Modell, das GPT-4o in mehreren Benchmark-Kategorien konsistent schlägt.

Benchmark-Highlights

MMLU Pro 80,5 % - wettbewerbsfähig mit proprietären Frontier-Modellen
GPQA Diamond 69,8 % - starkes wissenschaftliches Reasoning
MMMU 73,4 % - exzellentes multimodales Verständnis
Übertrifft GPT-4o bei Coding-Benchmarks
Arena ELO wettbewerbsfähig mit Top-Tier-Modellen

Technische Daten

400B Gesamtparameter, 17B aktiv pro Token
128 Experten in MoE-Architektur
1M Token Kontextfenster
Nativ multimodal (Text + Bild)
Llama 3.1 kompatible Lizenz

Kostenlosen Chat starten Gewichte herunterladen

Leistung

Frontier-Qualität von Llama 4 Maverick

Llama 4 Maverick erreicht 80,5 % auf MMLU Pro und 73,4 % auf MMMU und übertrifft GPT-4o bei mehreren Benchmarks, während nur 17B Parameter pro Token aktiviert werden.

Die Benchmark-Ergebnisse erzählen eine überzeugende Geschichte, aber die Praxisleistung ist es, wo Llama 4 Maverick sich wirklich beweist. Entwickler berichten, dass die Code-Generierungsqualität mit den besten proprietären Modellen mithalten kann, mit weniger Halluzinationen und genaueren Funktionsimplementierungen. Forscher stellen fest, dass wissenschaftliche Reasoning-Aufgaben gut strukturierte, zitierbewusste Antworten liefern. Die 128-Experten-Architektur bedeutet, dass das Modell für jede Teilaufgabe auf tief spezialisiertes Wissen zurückgreifen kann, was zu Ausgaben führt, die sich wie von einem Domänenexperten anfühlen statt von einem Generalisten.

Chat starten Model Card ansehen

Llama 4 Maverick Leistungsvergleichsdiagramm

MMLU Pro 80,5 % - Frontier-Klasse Wissen und Reasoning

GPQA Diamond 69,8 % - starkes wissenschaftliches Reasoning

MMMU 73,4 % - exzellentes multimodales Verständnis

Übertrifft GPT-4o bei Coding-Benchmarks

17B aktive Parameter aus 400B gesamt (128 Experten)

Benchmark-Vergleich

Maverick vs. Scout und vorherige Generation

Mavericks 128-Experten-Architektur liefert signifikante Verbesserungen gegenüber Scout und Llama 3.1 in allen Kategorien.

Benchmark	Llama 4 Maverick 128 Experten Vorgestellt	Llama 4 Scout 16 Experten	Llama 3.1 70B Dense	GPT-4o Proprietär
MMLU Pro Wissen & Reasoning	80.5%	74.3%	66.4%	78.4%
GPQA Diamond Wissenschaftliches Wissen	69.8%	57.2%	46.7%	53.6%
LiveCodeBench v5 Coding	43.4%	32.8%	28.5%	37.0%
MMMU Multimodal	73.4%	69.4%	-	69.1%
Context Window Max. Token	1M	10M	128K	128K
Total Parameters Modellgröße	400B	109B	70B	-
Active Parameters Pro Token	17B	17B	70B	-

Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.

128-Experten-Skalierung

Wie Llama 4 Maverick 400B Kapazität zu 17B Kosten liefert

Die 128-Experten-MoE-Architektur von Llama 4 Maverick ist eine signifikante Hochskalierung gegenüber Scouts 16 Experten. Jeder Token wird an spezialisierte Experten geroutet, was dem Modell Zugang zu 400B Parametern an Wissen gibt, während nur 17B pro Forward Pass aktiviert werden. Dieses Design ermöglicht Frontier-Klasse-Qualität ohne Frontier-Klasse-Rechenanforderungen.

128 Experten vs. Scouts 16 für 8-fach mehr Spezialisierung pro Token
400B Gesamtparameter vs. Scouts 109B für tiefere Wissenskapazität
Gleiche 17B aktive Parameterkosten pro Token wie Scout für effiziente Inferenz
Jeder Experte entwickelt tiefe Domänenspezialisierung während des Trainings
Sparse Routing stellt optimale Expertenauswahl für jede Eingabe sicher

Chat starten Benchmarks ansehen

Llama 4 Maverick 128-expert MoE architecture

Multimodal

Natives Bildverständnis in Llama 4 Maverick

Llama 4 Maverick nutzt Early-Fusion-Architektur, um Text und Bilder nativ gemeinsam zu verarbeiten. Das visuelle Verständnis ist von Grund auf in das Modell integriert, nicht als separates Modul angehängt. Das Ergebnis ist nahtloses Reasoning über beide Modalitäten mit starker Leistung bei visuellen Benchmarks.

73,4 % auf dem MMMU-Multimodal-Benchmark, übertrifft GPT-4os 69,1 %
Early-Fusion-Architektur für native multimodale Verarbeitung ohne separate Pipelines
Analysiere Screenshots, Diagramme, Charts und technische Dokumente mit Präzision
Kombiniere visuelle Analyse mit Code-Generierung für UI-Entwicklungs-Workflows
Verarbeite gemischte Inhalte mit Text und eingebetteten Bildern

Multimodalen Chat testen Mehr erfahren

Llama 4 Maverick multimodal capabilities

Coding

Coding und Function Calling mit Llama 4 Maverick

Llama 4 Maverick übertrifft GPT-4o bei Coding-Benchmarks und bietet natives Function Calling für den Aufbau autonomer Agent-Workflows. Ob du produktionsreifen Code generieren, komplexe Probleme debuggen oder Tool-nutzende Agenten bauen willst - die 128-Experten-Architektur liefert spezialisiertes Wissen über Programmiersprachen und Frameworks hinweg.

43,4 % auf LiveCodeBench v5, übertrifft GPT-4os 37,0 % im selben Benchmark
Natives Function Calling ermöglicht autonome Agent-Workflows ohne Feinabstimmung
Generiere produktionsreifen Code in Python, JavaScript, TypeScript, Rust und mehr
Debugge komplexe Multi-File-Probleme mit vollem Kontextbewusstsein über deine Codebasis
Verkette mehrere Tool-Aufrufe für End-to-End-Aufgabenautomatisierung in agentischen Anwendungen

Loslegen

Llama 4 Maverick jetzt ausprobieren

Starte sofort einen Chat oder lade Gewichte für Self-Hosted-Deployment herunter.

Mit Maverick chatten

Teste Llama 4 Maverick sofort - kein Setup nötig

Model Card

Vollständige technische Spezifikationen und Benchmarks

Dokumentation

Integrationsleitfäden und Best Practices

Download & Deployment

Self-Hosted-Deployment

Lade offizielle Modellgewichte für das Deployment auf deiner eigenen Infrastruktur herunter.

Hugging Face

Offizielles Llama 4 Maverick Model Repository

Ollama

Lokal mit Ollama ausführen

GitHub

Quellcode und Beispiele

FAQ

Häufig gestellte Fragen zu Llama 4 Maverick

Antworten auf die häufigsten Fragen zu Leistung, Deployment und praktischer Nutzung von Llama 4 Maverick.

Schlägt Llama 4 Maverick wirklich GPT-4o bei Benchmarks?

Ja. Llama 4 Maverick übertrifft GPT-4o bei mehreren wichtigen Benchmarks. Es erreicht 80,5 % auf MMLU Pro gegenüber GPT-4os 78,4 %, 69,8 % auf GPQA Diamond gegenüber 53,6 % und 43,4 % auf LiveCodeBench v5 gegenüber 37,0 %. Bei multimodalen Aufgaben erreicht es 73,4 % auf MMMU gegenüber GPT-4os 69,1 %. Diese Ergebnisse stammen aus Metas offiziellen Evaluierungen und unabhängigen Tests.

Wie viele GPUs braucht man, um Llama 4 Maverick auszuführen?

Llama 4 Maverick in voller Präzision auszuführen erfordert etwa 800 GB VRAM, was typischerweise einen Cluster von 8 oder mehr A100 80 GB GPUs bedeutet. Mit INT8-Quantisierung lässt sich das auf etwa 400 GB reduzieren (ungefähr 5 A100 GPUs). INT4-Quantisierung senkt es weiter auf etwa 200 GB. Cloud-Anbieter bieten auch gehosteten API-Zugang an, wenn lokales Deployment für dein Setup nicht praktikabel ist.

Was macht die 128-Experten-Architektur von Llama 4 Maverick besonders?

Die 128-Experten-Mixture-of-Experts-Architektur ermöglicht es Llama 4 Maverick, 400B Parameter an Wissen zu speichern, während bei der Inferenz nur 17B pro Token aktiviert werden. Jeder Experte entwickelt während des Trainings tiefe Spezialisierung, sodass der Routing-Mechanismus die relevantesten Experten für jede Eingabe auswählen kann. Das gibt dem Modell die Wissenstiefe eines 400B-Dense-Modells bei einem Bruchteil der Rechenkosten.

Kann ich Llama 4 Maverick für kommerzielle Projekte nutzen?

Ja. Llama 4 Maverick wird unter der Llama 3.1 kompatiblen Lizenz veröffentlicht, die kommerzielle Nutzung erlaubt. Du kannst Produkte bauen, Dienste deployen und das Modell für deine spezifischen Geschäftsanforderungen feinabstimmen. Die Lizenz enthält Nutzungsschwellen für sehr große Deployments, also prüfe die vollständigen Bedingungen, wenn deine Anwendung Hunderte Millionen monatlich aktive Nutzer bedient.

Wie geht Llama 4 Maverick mit Bildverständnis um?

Llama 4 Maverick nutzt Early-Fusion-Architektur, was bedeutet, dass Bildverständnis von Grund auf in das Modell integriert ist, anstatt als separater Vision-Encoder hinzugefügt zu werden. Es verarbeitet Text und Bilder in einem einheitlichen Stream und ermöglicht natürliches Reasoning über beide Modalitäten. Es erreicht 73,4 % auf MMMU und demonstriert starke Leistung bei Aufgaben, die das Verständnis von Charts, Diagrammen, Screenshots und Dokumenten erfordern.

Wie greife ich am besten über eine API auf Llama 4 Maverick zu?

Mehrere Cloud-Anbieter bieten gehosteten API-Zugang zu Llama 4 Maverick an, darunter Dienste auf AWS, Google Cloud, Azure und spezialisierte Inferenz-Plattformen wie Together AI, Fireworks und Groq. Du kannst auch selbst hosten mit Frameworks wie vLLM oder TGI. Für schnelles Experimentieren nutzt die Chat-Oberfläche auf dieser Seite Llama 4 Maverick als Standardmodell ohne Setup.

Llama 4 Familie