Llama 4 Models

Zwei Modelle, eine Familie - von Long Context bis Frontier-Qualität

Die Llama 4 Models sind Metas bisher ambitionierteste Open-Weight-Veröffentlichung. Die Familie umfasst zwei Mixture-of-Experts-Architekturen für unterschiedliche Prioritäten: Scout bewältigt massiven Kontext mit einem 10-Millionen-Token-Fenster über 16 Experten, während Maverick Frontier-Klasse-Qualität durch 128 Experten und 400B Gesamtparameter liefert. Beide teilen sich 17B aktive Parameter pro Token und native multimodale Unterstützung, sodass du die richtige Balance zwischen Kontextlänge und Ausgabequalität für deinen spezifischen Workflow wählen kannst.

Chat starten Modelle vergleichen

Alle Modelle

Wähle die richtige Option aus den Llama 4 Models

Scout und Maverick sind für unterschiedliche Szenarien optimiert. Ihre Stärken zu verstehen hilft dir, die Variante zu wählen, die zu deinem Workload passt - ob du ganze Codebasen verarbeiten oder die höchste Qualität bei Reasoning und Code generieren willst.

Llama 4 Scout

10M Kontextfenster - der Long-Context-Spezialist

109B Gesamtparameter über 16 Experten mit 17B aktiv pro Token. Das herausragende Merkmal ist das 10-Millionen-Token-Kontextfenster, das längste aller frei verfügbaren Modelle. Scout glänzt, wenn deine Aufgabe das Aufnehmen großer Informationsmengen auf einmal erfordert - von ganzen Repositories bis zu Multi-Dokument-Forschungssammlungen. Needle-in-a-Haystack-Tests bestätigen 95 % Abrufgenauigkeit bis 8 Millionen Token.

Wähle Scout, wenn du ganze Codebasen, Multi-Dokument-Forschungssets oder sehr lange Gesprächsverläufe in einem einzigen Aufruf verarbeiten musst. Es ist die beste Option, wenn Kontextlänge wichtiger ist als marginale Qualitätsunterschiede.

Scout testen Mehr erfahren

Llama 4 Maverick

128 Experten, 400B Parameter - das Qualitäts-Flaggschiff

400B Gesamtparameter über 128 Experten mit 17B aktiv pro Token. Maverick übertrifft GPT-4o bei wichtigen Benchmarks einschließlich MMLU Pro, GPQA Diamond und LiveCodeBench. Die 128-Experten-Architektur bietet tiefe Spezialisierung über Domänen hinweg und macht es zum stärksten Open-Weight-Modell für Reasoning, Coding und multimodale Aufgaben. Es bietet ein 1M-Token-Kontextfenster für die meisten Produktionsanforderungen.

Wähle Maverick, wenn du maximale Qualität für Reasoning, Coding, multimodale Analyse und komplexe Aufgabenerledigung brauchst. Es ist aus gutem Grund das Standard-Chatmodell auf dieser Seite.

Maverick testen Mehr erfahren

Long Context

Llama 4 Scout

109B gesamt, 17B aktiv, 16 Experten. 10M Token Kontextfenster.

Ideal für: ganze Codebasen, Multi-Dokument-Analyse, lange Forschungsarbeiten, ausgedehnte Gespräche.

Jetzt verfügbar

Mehr erfahren Herunterladen

Flaggschiff

Llama 4 Maverick

400B gesamt, 17B aktiv, 128 Experten. Schlägt GPT-4o bei Benchmarks.

Ideal für: komplexes Reasoning, Code-Generierung, multimodale Aufgaben, Forschungssynthese.

Jetzt verfügbar

Mehr erfahren Herunterladen

Gemeinsame Fähigkeiten

Was alle Llama 4 Models können

Scout und Maverick teilen gemeinsame Fähigkeiten, die auf Metas Mixture-of-Experts-Architektur aufbauen. Diese gemeinsamen Grundlagen bedeuten, dass du zwischen den beiden Varianten wechseln kannst, ohne deinen Integrationscode zu ändern.

Nativ multimodal

Beide Llama 4 Models verarbeiten Text und Bilder nativ mit Early-Fusion-Architektur. Das visuelle Verständnis ist von Grund auf integriert, nicht als separater Encoder hinzugefügt. Das bedeutet, du kannst gemischte Inhalte senden - einschließlich Screenshots, Diagramme und Dokumente zusammen mit Text - und erhältst kohärentes Reasoning über beide Modalitäten.

MoE-Effizienz

Beide Llama 4 Models aktivieren nur 17B Parameter pro Token trotz ihrer großen Gesamtparameterzahlen. Scout nutzt 16 Experten mit 109B gesamt, Maverick nutzt 128 Experten mit 400B gesamt. Diese Sparse-Routing-Strategie liefert starke Leistung bei einem Bruchteil der Rechenkosten äquivalenter dichter Architekturen.

Function Calling

Integriertes Function Calling in beiden Llama 4 Models ermöglicht agentische Workflows ohne zusätzliche Feinabstimmung. Definiere deine Tools, und das Modell entscheidet, wann und wie es sie aufruft. Das macht es einfach, autonome Agenten zu bauen, die Datenbanken abfragen, APIs aufrufen, Code ausführen und Operationen verketten.

Erweiterter Kontext

Scout bietet ein 10M-Token-Kontextfenster für extreme Long-Document-Aufgaben, während Maverick 1M Token für die meisten Produktionsszenarien bereitstellt. Beide übertreffen die 128K-Grenze der vorherigen Generation bei Weitem und geben dir Raum, mehr Kontext, mehr Beispiele und mehr Verlauf in jede Anfrage einzubeziehen.

Mehrsprachig

Starke mehrsprachige Unterstützung in beiden Llama 4 Models ermöglicht globale Anwendungen. Ob deine Nutzer auf Englisch, Chinesisch, Spanisch, Französisch oder in anderen unterstützten Sprachen kommunizieren - beide Varianten liefern konsistente Qualität mit kulturell bewussten Antworten.

Open Weights

Beide Llama 4 Models sind vollständig Open-Weight unter der Llama 3.1 kompatiblen Lizenz. Deploye überall, modifiziere frei und stimme für deine spezifischen Bedürfnisse fein ab. Diese Offenheit bedeutet kein Vendor Lock-in, volle Transparenz über das Modellverhalten und die Möglichkeit, komplett auf deiner eigenen Infrastruktur zu laufen.

Schnelle Auswahlhilfe

Welches der Llama 4 Models solltest du wählen?

Ordne deinen primären Anwendungsfall der richtigen Variante zu.

Wähle Scout, wenn

Du sehr lange Dokumente verarbeiten musst (10M Token)
Analyse ganzer Codebasen über Hunderte von Dateien
Multi-Dokument-Forschung und -Synthese
Ausgedehnte Gesprächsverläufe
Geringere Speicheranforderungen (109B vs. 400B gesamt)

Wähle Maverick, wenn

Maximale Qualität die Priorität ist
Komplexes Reasoning und wissenschaftliche Aufgaben
Code-Generierung und Debugging
Multimodale Analyse (Screenshots, Diagramme)
Aufgaben, bei denen Benchmark-Leistung am wichtigsten ist

Chat starten Alle Benchmarks ansehen

Leistung

Kompletter Benchmark-Vergleich der Llama 4 Models

Scout optimiert für Kontextlänge, Maverick für Rohqualität. Beide liefern starke Leistung relativ zu ihren Designzielen.

Die Wahl zwischen den Llama 4 Models hängt von deinem primären Bedarf ab. Wenn dein Workflow die Verarbeitung großer Mengen an Text, Code oder Dokumenten in einem einzigen Aufruf umfasst, ist Scouts 10M-Token-Kontextfenster unerreicht. Wenn du die höchstmögliche Qualität für Reasoning, Coding oder multimodale Aufgaben brauchst, liefert Mavericks 128-Experten-Architektur Frontier-Klasse-Ergebnisse, die mit den besten proprietären Angeboten konkurrieren. Viele Teams nutzen beide: Maverick für qualitätskritische Aufgaben und Scout für großangelegte Analysen.

Chat starten Model Card ansehen

Maverick: 80,5 % MMLU Pro, 73,4 % MMMU, schlägt GPT-4o beim Coding

Scout: 10M Token Kontext, 95%+ Abruf bei 8M Token

Beide: 17B aktive Parameter, nativ multimodal, Function Calling

Beide: Open-Weight unter Llama 3.1 kompatibler Lizenz

Vollständiger Vergleich

Scout vs. Maverick Seite an Seite

Vollständige Benchmark-Ergebnisse über Reasoning, Coding, Multimodal und Deployment-Metriken.

Benchmark	Maverick 128 Experten Flaggschiff	Scout 16 Experten Long Context
MMLU Pro Wissen & Reasoning	80.5%	74.3%
GPQA Diamond Wissenschaftliches Wissen	69.8%	57.2%
LiveCodeBench v5 Coding	43.4%	32.8%
MMMU Multimodal	73.4%	69.4%
Context Window Max. Token	1M	10M
Total Parameters Modellgröße	400B	109B
Active Parameters Pro Token	17B	17B
Number of Experts MoE-Routing	128	16

Daten aus Metas offiziellem Model Card und unabhängigen Evaluierungen.

Scout

Llama 4 Scout: wenn Kontextlänge alles ist

Scouts 10M-Token-Kontextfenster ist unerreicht unter den Llama 4 Models und in der gesamten Open-Weight-Landschaft. Es kann ganze Codebasen, Multi-Dokument-Forschungssets und stundenlange Transkripte in einem einzigen Aufruf verarbeiten. Wenn deine Aufgabe sehr lange Eingaben umfasst, ist Scout die klare Wahl.

10M Token Kontext, das längste aller heute verfügbaren offenen Modelle
95%+ Abrufgenauigkeit bis 8M Token in Needle-in-a-Haystack-Tests
109B Gesamtparameter über 16 Experten mit 17B aktiv pro Token
Verarbeite ganze GitHub-Repositories für umfassende Code-Reviews
Ideal für Analyse juristischer Dokumente, Forschungssynthese und Audit-Workflows

Scout testen Scout-Details

Maverick

Llama 4 Maverick: wenn Qualität Priorität hat

Mavericks 128-Experten-Architektur liefert Frontier-Klasse-Leistung, die GPT-4o bei wichtigen Benchmarks übertrifft. Es ist aus gutem Grund das Standardmodell auf dieser Seite: Es bewältigt komplexes Reasoning, Coding und multimodale Aufgaben mit der Qualität, die du von den besten proprietären Alternativen erwarten würdest.

80,5 % MMLU Pro für Frontier-Klasse Wissen und Reasoning
Übertrifft GPT-4o bei Coding-Benchmarks mit 43,4 % auf LiveCodeBench v5
400B Gesamtparameter über 128 Experten für tiefe Domänenspezialisierung
73,4 % auf MMMU für starkes multimodales Verständnis von Bildern und Dokumenten
Natives Function Calling für den Aufbau autonomer Agent-Workflows

Maverick testen Maverick-Details

Auswahlhilfe

Die richtige Option aus den Llama 4 Models wählen

Die Wahl zwischen den Llama 4 Models hängt davon ab, was für deinen spezifischen Workflow am wichtigsten ist. Beide teilen den gleichen 17B-aktive-Parameter-Footprint und native multimodale Unterstützung, sodass die Entscheidung auf Kontextlänge versus Ausgabequalität hinausläuft. Viele Teams finden Wert darin, beide Varianten für verschiedene Teile ihrer Pipeline zu nutzen.

Wähle Scout für Aufgaben, die die Verarbeitung von mehr als 1 Million Token auf einmal erfordern
Wähle Maverick für Aufgaben, bei denen Ausgabequalität und Reasoning-Tiefe am wichtigsten sind
Beide teilen 17B aktive Parameter, sodass die Inferenzkosten pro Token vergleichbar sind
Nutze Scout für Aufnahme und Analyse, dann Maverick für Synthese und Generierung
Beide laufen unter der gleichen Open-Weight-Lizenz, sodass du beide frei deployen kannst

Jetzt testen

Starte einen Chat mit Llama 4

Teste beide Modelle sofort über unsere Chat-Oberfläche.

Chat starten

Chatte sofort mit Llama 4 Models, kein Setup nötig

Model Card

Vollständige technische Spezifikationen für beide Varianten

Dokumentation

Integrationsleitfäden und Best Practices

Download

Modellgewichte herunterladen

Lade offizielle Gewichte für beide Llama-4-Varianten herunter.

Hugging Face

Alle Llama 4 Model Repositories

Ollama

Beide Varianten lokal mit Ollama ausführen

GitHub

Quellcode und Beispiele

FAQ

Häufig gestellte Fragen zu Llama 4 Models

Antworten auf die häufigsten Fragen zur Auswahl, zum Betrieb und zum Deployment der Llama 4 Models für deine Projekte.

Wie viele Llama 4 Models sind aktuell verfügbar?

Es gibt derzeit zwei Llama 4 Models: Scout und Maverick. Jedes kommt in zwei Varianten - eine Instruction-Tuned-Version, die für Chat und Aufgabenerledigung optimiert ist, und eine vortrainierte Basisversion für Feinabstimmung und Forschung. Das ergibt insgesamt vier Checkpoints zur Auswahl, je nachdem ob du ein gebrauchsfertiges Konversationsmodell oder eine Grundlage für individuelles Training brauchst.

Welches Llama 4 Model ist am besten für Coding-Aufgaben?

Maverick ist die stärkere Wahl für Coding-Aufgaben. Es erreicht 43,4 % auf LiveCodeBench v5 und übertrifft damit sowohl Scout (32,8 %) als auch GPT-4o (37,0 %). Die 128-Experten-Architektur bietet tiefe Spezialisierung über Programmiersprachen und Frameworks hinweg. Wenn du allerdings eine ganze große Codebasis auf einmal analysieren musst, lässt Scouts 10M-Token-Kontextfenster dich alles in einen einzigen Aufruf für dateiübergreifende Analyse laden.

Kann ich ein Llama 4 Model auf einer Consumer-GPU ausführen?

Die Vollversionen erfordern Multi-GPU-Setups. Scout benötigt etwa 220 GB VRAM bei voller Präzision, und Maverick braucht rund 800 GB. Quantisierte Versionen reduzieren diese Anforderungen jedoch erheblich. Scout mit INT4-Quantisierung passt auf ungefähr 55 GB, was mit High-End-Consumer-GPUs erreichbar ist. Maverick mit INT4 braucht immer noch etwa 200 GB und eignet sich eher für Cloud- oder Enterprise-Hardware.

Was ist der Unterschied zwischen Scout und Maverick in der Llama-4-Familie?

Scout ist für Long-Context-Aufgaben mit einem 10M-Token-Fenster und 16 Experten (109B Gesamtparameter) optimiert. Maverick priorisiert Ausgabequalität mit 128 Experten und 400B Gesamtparametern, hat aber ein 1M-Token-Kontextfenster. Beide aktivieren 17B Parameter pro Token. Stell dir Scout als das Weitwinkelobjektiv und Maverick als das hochauflösende Objektiv im selben Kamerasystem vor.

Sind alle Llama 4 Models kostenlos und Open-Weight?

Ja. Alle Llama 4 Models werden unter der Llama 3.1 kompatiblen Lizenz veröffentlicht, die kommerzielle Nutzung, Feinabstimmung und Weiterverteilung erlaubt. Du kannst sie auf deiner eigenen Infrastruktur deployen, Produkte darauf aufbauen und die Gewichte für deine spezifischen Bedürfnisse modifizieren. Die Lizenz enthält Nutzungsschwellen für sehr große Deployments mit Hunderten Millionen Nutzern.

Welches Llama 4 Model sollte ich für Dokumentenanalyse wählen?

Das hängt vom Umfang und der Komplexität deiner Dokumente ab. Für die Analyse großer Dokumentensammlungen, Verträge oder Forschungsarbeiten in einem einzigen Durchgang ist Scouts 10M-Token-Kontextfenster ideal. Für kürzere Dokumente, bei denen du die höchste Qualität bei Extraktion, Zusammenfassung oder Reasoning brauchst, liefert Mavericks 128-Experten-Architektur nuanciertere und genauere Ergebnisse. Beide unterstützen natives Bildverständnis für Dokumente mit Charts, Tabellen und Diagrammen.

Llama 4 Familie

Erkunde jedes Modell und vergleiche mit Wettbewerbern

Tauche tiefer in jede Variante ein oder sieh, wie sich die Llama 4 Models gegen andere Frontier-Open-Modelle schlagen.

Offizielle Llama-Seite GitHub

Llama 4 Scout

10M-Kontextfenster-Spezialist

Erkunden

Llama 4 Maverick

128-Experten-Flaggschiffmodell

Erkunden

Llama 4 vs Kimi K2.6

Meta vs. Moonshot Vergleich

Vergleichen

Llama 4 vs Qwen 3.6

Meta vs. Alibaba Vergleich

Vergleichen

Llama 4 vs DeepSeek V4

MoE-Architektur-Duell

Vergleichen

Llama 4 vs MiniMax M2.7

Skalierung vs. Effizienz

Vergleichen

Loslegen

Finde deine ideale Option unter den Llama 4 Models

Starte einen kostenlosen Chat mit beiden Varianten oder lade Gewichte für lokales Deployment herunter. Beide sind Open-Weight und sofort einsatzbereit.

Kostenlosen Chat starten Modelle herunterladen