Llama 4 Models

Zwei Modelle, eine Familie - von Long Context bis Frontier-Qualität

Die Llama 4 Models sind Metas bisher ambitionierteste Open-Weight-Veröffentlichung. Die Familie umfasst zwei Mixture-of-Experts-Architekturen für unterschiedliche Prioritäten: Scout bewältigt massiven Kontext mit einem 10-Millionen-Token-Fenster über 16 Experten, während Maverick Frontier-Klasse-Qualität durch 128 Experten und 400B Gesamtparameter liefert. Beide teilen sich 17B aktive Parameter pro Token und native multimodale Unterstützung, sodass du die richtige Balance zwischen Kontextlänge und Ausgabequalität für deinen spezifischen Workflow wählen kannst.

Alle Modelle

Wähle die richtige Option aus den Llama 4 Models

Scout und Maverick sind für unterschiedliche Szenarien optimiert. Ihre Stärken zu verstehen hilft dir, die Variante zu wählen, die zu deinem Workload passt - ob du ganze Codebasen verarbeiten oder die höchste Qualität bei Reasoning und Code generieren willst.

Llama 4 Scout

10M Kontextfenster - der Long-Context-Spezialist

109B Gesamtparameter über 16 Experten mit 17B aktiv pro Token. Das herausragende Merkmal ist das 10-Millionen-Token-Kontextfenster, das längste aller frei verfügbaren Modelle. Scout glänzt, wenn deine Aufgabe das Aufnehmen großer Informationsmengen auf einmal erfordert - von ganzen Repositories bis zu Multi-Dokument-Forschungssammlungen. Needle-in-a-Haystack-Tests bestätigen 95 % Abrufgenauigkeit bis 8 Millionen Token.

Wähle Scout, wenn du ganze Codebasen, Multi-Dokument-Forschungssets oder sehr lange Gesprächsverläufe in einem einzigen Aufruf verarbeiten musst. Es ist die beste Option, wenn Kontextlänge wichtiger ist als marginale Qualitätsunterschiede.

Llama 4 Maverick

128 Experten, 400B Parameter - das Qualitäts-Flaggschiff

400B Gesamtparameter über 128 Experten mit 17B aktiv pro Token. Maverick übertrifft GPT-4o bei wichtigen Benchmarks einschließlich MMLU Pro, GPQA Diamond und LiveCodeBench. Die 128-Experten-Architektur bietet tiefe Spezialisierung über Domänen hinweg und macht es zum stärksten Open-Weight-Modell für Reasoning, Coding und multimodale Aufgaben. Es bietet ein 1M-Token-Kontextfenster für die meisten Produktionsanforderungen.

Wähle Maverick, wenn du maximale Qualität für Reasoning, Coding, multimodale Analyse und komplexe Aufgabenerledigung brauchst. Es ist aus gutem Grund das Standard-Chatmodell auf dieser Seite.

Long Context

Llama 4 Scout

109B gesamt, 17B aktiv, 16 Experten. 10M Token Kontextfenster.

Ideal für: ganze Codebasen, Multi-Dokument-Analyse, lange Forschungsarbeiten, ausgedehnte Gespräche.

Jetzt verfügbar

Flaggschiff

Llama 4 Maverick

400B gesamt, 17B aktiv, 128 Experten. Schlägt GPT-4o bei Benchmarks.

Ideal für: komplexes Reasoning, Code-Generierung, multimodale Aufgaben, Forschungssynthese.

Jetzt verfügbar

Gemeinsame Fähigkeiten

Was alle Llama 4 Models können

Scout und Maverick teilen gemeinsame Fähigkeiten, die auf Metas Mixture-of-Experts-Architektur aufbauen. Diese gemeinsamen Grundlagen bedeuten, dass du zwischen den beiden Varianten wechseln kannst, ohne deinen Integrationscode zu ändern.

Nativ multimodal

Beide Llama 4 Models verarbeiten Text und Bilder nativ mit Early-Fusion-Architektur. Das visuelle Verständnis ist von Grund auf integriert, nicht als separater Encoder hinzugefügt. Das bedeutet, du kannst gemischte Inhalte senden - einschließlich Screenshots, Diagramme und Dokumente zusammen mit Text - und erhältst kohärentes Reasoning über beide Modalitäten.

MoE-Effizienz

Beide Llama 4 Models aktivieren nur 17B Parameter pro Token trotz ihrer großen Gesamtparameterzahlen. Scout nutzt 16 Experten mit 109B gesamt, Maverick nutzt 128 Experten mit 400B gesamt. Diese Sparse-Routing-Strategie liefert starke Leistung bei einem Bruchteil der Rechenkosten äquivalenter dichter Architekturen.

Function Calling

Integriertes Function Calling in beiden Llama 4 Models ermöglicht agentische Workflows ohne zusätzliche Feinabstimmung. Definiere deine Tools, und das Modell entscheidet, wann und wie es sie aufruft. Das macht es einfach, autonome Agenten zu bauen, die Datenbanken abfragen, APIs aufrufen, Code ausführen und Operationen verketten.

Erweiterter Kontext

Scout bietet ein 10M-Token-Kontextfenster für extreme Long-Document-Aufgaben, während Maverick 1M Token für die meisten Produktionsszenarien bereitstellt. Beide übertreffen die 128K-Grenze der vorherigen Generation bei Weitem und geben dir Raum, mehr Kontext, mehr Beispiele und mehr Verlauf in jede Anfrage einzubeziehen.

Mehrsprachig

Starke mehrsprachige Unterstützung in beiden Llama 4 Models ermöglicht globale Anwendungen. Ob deine Nutzer auf Englisch, Chinesisch, Spanisch, Französisch oder in anderen unterstützten Sprachen kommunizieren - beide Varianten liefern konsistente Qualität mit kulturell bewussten Antworten.

Open Weights

Beide Llama 4 Models sind vollständig Open-Weight unter der Llama 3.1 kompatiblen Lizenz. Deploye überall, modifiziere frei und stimme für deine spezifischen Bedürfnisse fein ab. Diese Offenheit bedeutet kein Vendor Lock-in, volle Transparenz über das Modellverhalten und die Möglichkeit, komplett auf deiner eigenen Infrastruktur zu laufen.

Schnelle Auswahlhilfe

Welches der Llama 4 Models solltest du wählen?

Ordne deinen primären Anwendungsfall der richtigen Variante zu.

Wähle Scout, wenn

  • Du sehr lange Dokumente verarbeiten musst (10M Token)
  • Analyse ganzer Codebasen über Hunderte von Dateien
  • Multi-Dokument-Forschung und -Synthese
  • Ausgedehnte Gesprächsverläufe
  • Geringere Speicheranforderungen (109B vs. 400B gesamt)

Wähle Maverick, wenn

  • Maximale Qualität die Priorität ist
  • Komplexes Reasoning und wissenschaftliche Aufgaben
  • Code-Generierung und Debugging
  • Multimodale Analyse (Screenshots, Diagramme)
  • Aufgaben, bei denen Benchmark-Leistung am wichtigsten ist

Leistung

Kompletter Benchmark-Vergleich der Llama 4 Models

Scout optimiert für Kontextlänge, Maverick für Rohqualität. Beide liefern starke Leistung relativ zu ihren Designzielen.

Die Wahl zwischen den Llama 4 Models hängt von deinem primären Bedarf ab. Wenn dein Workflow die Verarbeitung großer Mengen an Text, Code oder Dokumenten in einem einzigen Aufruf umfasst, ist Scouts 10M-Token-Kontextfenster unerreicht. Wenn du die höchstmögliche Qualität für Reasoning, Coding oder multimodale Aufgaben brauchst, liefert Mavericks 128-Experten-Architektur Frontier-Klasse-Ergebnisse, die mit den besten proprietären Angeboten konkurrieren. Viele Teams nutzen beide: Maverick für qualitätskritische Aufgaben und Scout für großangelegte Analysen.

Llama 4 Familien-Leistungsvergleich

Maverick: 80,5 % MMLU Pro, 73,4 % MMMU, schlägt GPT-4o beim Coding

Scout: 10M Token Kontext, 95%+ Abruf bei 8M Token

Beide: 17B aktive Parameter, nativ multimodal, Function Calling

Beide: Open-Weight unter Llama 3.1 kompatibler Lizenz

Vollständiger Vergleich

Scout vs. Maverick Seite an Seite

Vollständige Benchmark-Ergebnisse über Reasoning, Coding, Multimodal und Deployment-Metriken.

Benchmark
Maverick
128 Experten
Flaggschiff
Scout
16 Experten
Long Context
MMLU Pro
Wissen & Reasoning
80.5%74.3%
GPQA Diamond
Wissenschaftliches Wissen
69.8%57.2%
LiveCodeBench v5
Coding
43.4%32.8%
MMMU
Multimodal
73.4%69.4%
Context Window
Max. Token
1M10M
Total Parameters
Modellgröße
400B109B
Active Parameters
Pro Token
17B17B
Number of Experts
MoE-Routing
12816

Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.

Scout

Llama 4 Scout: wenn Kontextlänge alles ist

Scouts 10M-Token-Kontextfenster ist unerreicht unter den Llama 4 Models und in der gesamten Open-Weight-Landschaft. Es kann ganze Codebasen, Multi-Dokument-Forschungssets und stundenlange Transkripte in einem einzigen Aufruf verarbeiten. Wenn deine Aufgabe sehr lange Eingaben umfasst, ist Scout die klare Wahl.

  • 10M Token Kontext, das längste aller heute verfügbaren offenen Modelle
  • 95%+ Abrufgenauigkeit bis 8M Token in Needle-in-a-Haystack-Tests
  • 109B Gesamtparameter über 16 Experten mit 17B aktiv pro Token
  • Verarbeite ganze GitHub-Repositories für umfassende Code-Reviews
  • Ideal für Analyse juristischer Dokumente, Forschungssynthese und Audit-Workflows
Llama 4 Scout - long context specialist

Maverick

Llama 4 Maverick: wenn Qualität Priorität hat

Mavericks 128-Experten-Architektur liefert Frontier-Klasse-Leistung, die GPT-4o bei wichtigen Benchmarks übertrifft. Es ist aus gutem Grund das Standardmodell auf dieser Seite: Es bewältigt komplexes Reasoning, Coding und multimodale Aufgaben mit der Qualität, die du von den besten proprietären Alternativen erwarten würdest.

  • 80,5 % MMLU Pro für Frontier-Klasse Wissen und Reasoning
  • Übertrifft GPT-4o bei Coding-Benchmarks mit 43,4 % auf LiveCodeBench v5
  • 400B Gesamtparameter über 128 Experten für tiefe Domänenspezialisierung
  • 73,4 % auf MMMU für starkes multimodales Verständnis von Bildern und Dokumenten
  • Natives Function Calling für den Aufbau autonomer Agent-Workflows
Llama 4 Maverick - frontier quality

Auswahlhilfe

Die richtige Option aus den Llama 4 Models wählen

Die Wahl zwischen den Llama 4 Models hängt davon ab, was für deinen spezifischen Workflow am wichtigsten ist. Beide teilen den gleichen 17B-aktive-Parameter-Footprint und native multimodale Unterstützung, sodass die Entscheidung auf Kontextlänge versus Ausgabequalität hinausläuft. Viele Teams finden Wert darin, beide Varianten für verschiedene Teile ihrer Pipeline zu nutzen.

  • Wähle Scout für Aufgaben, die die Verarbeitung von mehr als 1 Million Token auf einmal erfordern
  • Wähle Maverick für Aufgaben, bei denen Ausgabequalität und Reasoning-Tiefe am wichtigsten sind
  • Beide teilen 17B aktive Parameter, sodass die Inferenzkosten pro Token vergleichbar sind
  • Nutze Scout für Aufnahme und Analyse, dann Maverick für Synthese und Generierung
  • Beide laufen unter der gleichen Open-Weight-Lizenz, sodass du beide frei deployen kannst

Download

Modellgewichte herunterladen

Lade offizielle Gewichte für beide Llama-4-Varianten herunter.

FAQ

Häufig gestellte Fragen zu Llama 4 Models

Antworten auf die häufigsten Fragen zur Auswahl, zum Betrieb und zum Deployment der Llama 4 Models für deine Projekte.

Wie viele Llama 4 Models sind aktuell verfügbar?

Es gibt derzeit zwei Llama 4 Models: Scout und Maverick. Jedes kommt in zwei Varianten - eine Instruction-Tuned-Version, die für Chat und Aufgabenerledigung optimiert ist, und eine vortrainierte Basisversion für Feinabstimmung und Forschung. Das ergibt insgesamt vier Checkpoints zur Auswahl, je nachdem ob du ein gebrauchsfertiges Konversationsmodell oder eine Grundlage für individuelles Training brauchst.

Welches Llama 4 Model ist am besten für Coding-Aufgaben?

Maverick ist die stärkere Wahl für Coding-Aufgaben. Es erreicht 43,4 % auf LiveCodeBench v5 und übertrifft damit sowohl Scout (32,8 %) als auch GPT-4o (37,0 %). Die 128-Experten-Architektur bietet tiefe Spezialisierung über Programmiersprachen und Frameworks hinweg. Wenn du allerdings eine ganze große Codebasis auf einmal analysieren musst, lässt Scouts 10M-Token-Kontextfenster dich alles in einen einzigen Aufruf für dateiübergreifende Analyse laden.

Kann ich ein Llama 4 Model auf einer Consumer-GPU ausführen?

Die Vollversionen erfordern Multi-GPU-Setups. Scout benötigt etwa 220 GB VRAM bei voller Präzision, und Maverick braucht rund 800 GB. Quantisierte Versionen reduzieren diese Anforderungen jedoch erheblich. Scout mit INT4-Quantisierung passt auf ungefähr 55 GB, was mit High-End-Consumer-GPUs erreichbar ist. Maverick mit INT4 braucht immer noch etwa 200 GB und eignet sich eher für Cloud- oder Enterprise-Hardware.

Was ist der Unterschied zwischen Scout und Maverick in der Llama-4-Familie?

Scout ist für Long-Context-Aufgaben mit einem 10M-Token-Fenster und 16 Experten (109B Gesamtparameter) optimiert. Maverick priorisiert Ausgabequalität mit 128 Experten und 400B Gesamtparametern, hat aber ein 1M-Token-Kontextfenster. Beide aktivieren 17B Parameter pro Token. Stell dir Scout als das Weitwinkelobjektiv und Maverick als das hochauflösende Objektiv im selben Kamerasystem vor.

Sind alle Llama 4 Models kostenlos und Open-Weight?

Ja. Alle Llama 4 Models werden unter der Llama 3.1 kompatiblen Lizenz veröffentlicht, die kommerzielle Nutzung, Feinabstimmung und Weiterverteilung erlaubt. Du kannst sie auf deiner eigenen Infrastruktur deployen, Produkte darauf aufbauen und die Gewichte für deine spezifischen Bedürfnisse modifizieren. Die Lizenz enthält Nutzungsschwellen für sehr große Deployments mit Hunderten Millionen Nutzern.

Welches Llama 4 Model sollte ich für Dokumentenanalyse wählen?

Das hängt vom Umfang und der Komplexität deiner Dokumente ab. Für die Analyse großer Dokumentensammlungen, Verträge oder Forschungsarbeiten in einem einzigen Durchgang ist Scouts 10M-Token-Kontextfenster ideal. Für kürzere Dokumente, bei denen du die höchste Qualität bei Extraktion, Zusammenfassung oder Reasoning brauchst, liefert Mavericks 128-Experten-Architektur nuanciertere und genauere Ergebnisse. Beide unterstützen natives Bildverständnis für Dokumente mit Charts, Tabellen und Diagrammen.

Llama 4 Familie

Erkunde jedes Modell und vergleiche mit Wettbewerbern

Tauche tiefer in jede Variante ein oder sieh, wie sich die Llama 4 Models gegen andere Frontier-Open-Modelle schlagen.

Llama 4 Scout

10M-Kontextfenster-Spezialist

Erkunden

Llama 4 Maverick

128-Experten-Flaggschiffmodell

Erkunden

Llama 4 vs Kimi K2.6

Meta vs. Moonshot Vergleich

Vergleichen

Llama 4 vs Qwen 3.6

Meta vs. Alibaba Vergleich

Vergleichen

Llama 4 vs DeepSeek V4

MoE-Architektur-Duell

Vergleichen

Llama 4 vs MiniMax M2.7

Skalierung vs. Effizienz

Vergleichen

Loslegen

Finde deine ideale Option unter den Llama 4 Models

Starte einen kostenlosen Chat mit beiden Varianten oder lade Gewichte für lokales Deployment herunter. Beide sind Open-Weight und sofort einsatzbereit.