Llama 4 Modellen

Twee modellen, één familie - van lange context tot frontier kwaliteit

De Llama 4 modellen vertegenwoordigen Meta's meest ambitieuze open-weight release tot nu toe. Deze familie bevat twee mixture of experts architecturen ontworpen voor verschillende prioriteiten: Scout behandelt enorme context met een 10 miljoen token venster over 16 experts, terwijl Maverick frontier-klasse kwaliteit levert door 128 experts en 400B totale parameters. Beide delen 17B actieve parameters per token en native multimodale ondersteuning, wat je de flexibiliteit geeft om de juiste balans te kiezen tussen context lengte en output kwaliteit voor jouw specifieke workflow.

Begin met Chatten Vergelijk Modellen

Alle modellen

Kies de juiste optie uit de Llama 4 modellen

Scout en Maverick zijn geoptimaliseerd voor verschillende scenario's. Hun sterke punten begrijpen helpt je de variant te kiezen die matcht met je workload, of dat nu betekent volledige codebases verwerken of de hoogste kwaliteit redenering en code genereren.

Llama 4 Scout

10M contextvenster - de lange-context specialist

109B totale parameters over 16 experts met 17B actief per token. De opvallende feature is het 10 miljoen token contextvenster, het langste van elk open beschikbaar model. Scout blinkt uit wanneer je taak grote volumes informatie in één keer vereist, van volledige repositories tot multi-document onderzoek collecties. Needle-in-a-haystack tests bevestigen 95% retrieval nauwkeurigheid tot 8 miljoen tokens.

Kies Scout wanneer je volledige codebases, multi-document onderzoek sets of zeer lange gespreksgeschiedenissen in één aanroep moet verwerken. Het is de beste optie wanneer context lengte meer uitmaakt dan marginale kwaliteitsverschillen.

Probeer Scout Meer informatie

Llama 4 Maverick

128 experts, 400B parameters - het kwaliteit vlaggenschip

400B totale parameters over 128 experts met 17B actief per token. Maverick overtreft GPT-4o op belangrijke benchmarks inclusief MMLU Pro, GPQA Diamond en LiveCodeBench. De 128-expert architectuur biedt diepe specialisatie over domeinen, waardoor het het sterkste open-weight model is voor redenering, coderen en multimodale taken. Het biedt een 1M token contextvenster voor de meeste productie behoeften.

Kies Maverick wanneer je maximale kwaliteit nodig hebt voor redenering, coderen, multimodale analyse en complexe taakvoltooiing. Het is het standaard chat model op deze site met reden.

Probeer Maverick Meer informatie

Lange Context

Llama 4 Scout

109B totaal, 17B actief, 16 experts. 10M token contextvenster.

Best voor: volledige codebases, multi-document analyse, lange onderzoeksrapporten, uitgebreide gesprekken.

Nu beschikbaar

Meer informatie Download

Vlaggenschip

Llama 4 Maverick

400B totaal, 17B actief, 128 experts. Verslaat GPT-4o op benchmarks.

Best voor: complexe redenering, code generatie, multimodale taken, onderzoeks synthese.

Nu beschikbaar

Meer informatie Download

Gedeelde mogelijkheden

Wat alle Llama 4 modellen kunnen doen

Scout en Maverick delen een gemeenschappelijke set mogelijkheden gebouwd op Meta's mixture of experts architectuur. Deze gedeelde fundamenten betekenen dat je tussen de twee varianten kunt wisselen zonder je integratie code te veranderen.

Native multimodaal

Beide Llama 4 modellen verwerken tekst en afbeeldingen native met early fusion architectuur. Visueel begrip is in de basis ingebouwd, niet toegevoegd als aparte encoder. Dit betekent dat je gemengde content kunt sturen, inclusief screenshots, diagrammen en documenten naast tekst, en coherent redeneren krijgt over beide modaliteiten.

MoE efficiëntie

Beide Llama 4 modellen activeren slechts 17B parameters per token ondanks hun grote totale parameter aantallen. Scout gebruikt 16 experts met 109B totaal, Maverick gebruikt 128 experts met 400B totaal. Deze sparse routing strategie levert sterke prestaties tegen een fractie van de compute kosten van equivalente dense architecturen.

Function calling

Ingebouwde function calling over beide Llama 4 modellen maakt agentische workflows mogelijk zonder extra fine-tuning. Definieer je tools en het model beslist wanneer en hoe ze aan te roepen. Dit maakt het eenvoudig om autonome agents te bouwen die databases bevragen, API's aanroepen, code uitvoeren en operaties ketenen.

Uitgebreide context

Scout biedt een 10M token contextvenster voor extreme long-document taken, terwijl Maverick 1M tokens biedt voor de meeste productie scenario's. Beide ver overschrijden de 128K limiet van vorige generatie modellen, wat je ruimte geeft om meer context, meer voorbeelden en meer geschiedenis in elk verzoek op te nemen.

Meertalig

Sterke meertalige ondersteuning over beide Llama 4 modellen maakt wereldwijde toepassingen mogelijk. Of je gebruikers nu communiceren in het Engels, Chinees, Spaans, Frans of andere ondersteunde talen, beide varianten behouden consistente kwaliteit met cultureel bewuste responsen.

Open weights

Beide Llama 4 modellen zijn volledig open-weight onder de Llama 3.1 compatibele licentie. Deploy overal, wijzig vrij en fine-tune voor je specifieke behoeften. Deze openheid betekent geen vendor lock-in, volledige transparantie in model gedrag en de mogelijkheid om volledig op je eigen infrastructuur te draaien.

Snelle selectie gids

Welke van de Llama 4 modellen moet je kiezen?

Match je primaire gebruikssituatie met de juiste variant.

Kies Scout wanneer

Je zeer lange documenten moet verwerken (10M tokens)
Volledige codebase analyse over honderden bestanden
Multi-document onderzoek en synthese
Uitgebreide gespreksgeschiedenissen
Lagere geheugen vereisten (109B vs 400B totaal)

Kies Maverick wanneer

Maximale kwaliteit de prioriteit is
Complexe redenering en wetenschappelijke taken
Code generatie en debugging
Multimodale analyse (screenshots, diagrammen)
Taken waar benchmark prestatie het meest uitmaakt

Begin met Chatten Bekijk alle benchmarks

Prestaties

Volledige benchmark vergelijking over Llama 4 modellen

Scout optimaliseert voor context lengte, Maverick voor ruwe kwaliteit. Beide leveren sterke prestaties relatief aan hun ontwerp doelen.

Kiezen tussen de Llama 4 modellen komt neer op je primaire behoefte. Als je workflow grote volumes tekst, code of documenten in één aanroep verwerken betreft, is Scout's 10M token contextvenster ongeëvenaard. Als je de hoogst mogelijke kwaliteit nodig hebt voor redenering, coderen of multimodale taken, levert Maverick's 128-expert architectuur frontier-klasse resultaten die concurreren met de beste proprietary aanbiedingen. Veel teams gebruiken beide: Maverick voor kwaliteit-kritieke taken en Scout voor grootschalige analyse.

Begin met Chatten Bekijk model card

Maverick: 80.5% MMLU Pro, 73.4% MMMU, verslaat GPT-4o op coderen

Scout: 10M token context, 95%+ retrieval bij 8M tokens

Beide: 17B actieve parameters, native multimodaal, function calling

Beide: open-weight onder Llama 3.1 compatibele licentie

Volledige vergelijking

Scout vs Maverick zij aan zij

Volledige benchmark resultaten over redenering, coderen, multimodaal en deployment metrics.

Benchmark	Maverick 128 experts Vlaggenschip	Scout 16 experts Lange Context
MMLU Pro Kennis & redenering	80.5%	74.3%
GPQA Diamond Wetenschappelijke kennis	69.8%	57.2%
LiveCodeBench v5 Coderen	43.4%	32.8%
MMMU Multimodaal	73.4%	69.4%
Context Window Max tokens	1M	10M
Total Parameters Model grootte	400B	109B
Active Parameters Per token	17B	17B
Number of Experts MoE routing	128	16

Data van Meta's officiële model card en onafhankelijke evaluaties.

Scout

Llama 4 Scout: wanneer context lengte alles is

Scout's 10M token contextvenster is ongeëvenaard onder de Llama 4 modellen en over het hele open-weight landschap. Het kan volledige codebases, multi-document onderzoek sets en uren aan transcripties in één aanroep verwerken. Als je taak zeer lange inputs betreft, is Scout de duidelijke keuze.

10M token context, het langste van elk open model vandaag beschikbaar
95%+ retrieval nauwkeurigheid tot 8M tokens in needle-in-a-haystack tests
109B totale parameters over 16 experts met 17B actief per token
Verwerk volledige GitHub repositories voor uitgebreide code review
Ideaal voor juridische document analyse, onderzoeks synthese en audit workflows

Probeer Scout Scout details

Maverick

Llama 4 Maverick: wanneer kwaliteit de prioriteit is

Maverick's 128-expert architectuur levert frontier-klasse prestaties die GPT-4o overtreft op belangrijke benchmarks. Het is het standaard model op deze site met reden: het behandelt complexe redenering, coderen en multimodale taken met de kwaliteit die je zou verwachten van de beste proprietary alternatieven.

80.5% MMLU Pro voor frontier-klasse kennis en redenering
Overtreft GPT-4o op coding benchmarks met 43.4% op LiveCodeBench v5
400B totale parameters over 128 experts voor diepe domein specialisatie
73.4% op MMMU voor sterk multimodaal begrip van afbeeldingen en documenten
Native function calling voor het bouwen van autonome agent workflows

Probeer Maverick Maverick details

Selectie Gids

De juiste optie kiezen uit de Llama 4 modellen

Kiezen tussen de Llama 4 modellen hangt af van wat het belangrijkst is voor je specifieke workflow. Beide delen dezelfde 17B actieve parameter voetafdruk en native multimodale ondersteuning, dus de beslissing komt neer op context lengte versus output kwaliteit. Veel teams vinden waarde in beide varianten te gebruiken voor verschillende delen van hun pijplijn.

Kies Scout voor taken die meer dan 1 miljoen tokens tegelijk vereisen
Kies Maverick voor taken waar output kwaliteit en redeneringsdiepte het meest uitmaken
Beide delen 17B actieve parameters, dus inference kosten per token zijn vergelijkbaar
Gebruik Scout voor inname en analyse, dan Maverick voor synthese en generatie
Beide draaien onder dezelfde open-weight licentie, dus je kunt beide vrij deployen

Probeer nu

Begin met chatten met Llama 4

Probeer beide modellen direct via onze chat interface.

Begin met Chatten

Chat met Llama 4 modellen direct, geen setup vereist

Model card

Volledige technische specificaties voor beide varianten

Documentatie

Integratie gidsen en best practices

Download

Haal model weights

Download officiële weights voor beide Llama 4 varianten.

Hugging Face

Alle Llama 4 model repositories

Ollama

Draai beide varianten lokaal met Ollama

GitHub

Broncode en voorbeelden

FAQ

Veelgestelde vragen over Llama 4 modellen

Antwoorden op de meest voorkomende vragen over kiezen, draaien en deployen van de Llama 4 modellen voor je projecten.

Hoeveel Llama 4 modellen zijn er nu beschikbaar?

Er zijn momenteel twee Llama 4 modellen: Scout en Maverick. Elk komt in twee varianten, een instruction-tuned versie geoptimaliseerd voor chat en taakvoltooiing, en een base pre-trained versie voor fine-tuning en onderzoek. Dat geeft je vier totale checkpoints om uit te kiezen afhankelijk van of je een kant-en-klare conversationele model nodig hebt of een foundation voor custom training.

Welk Llama 4 model is het beste voor coder taken?

Maverick is de sterkere keuze voor coder taken. Het scoort 43.4% op LiveCodeBench v5, zowel Scout (32.8%) als GPT-4o (37.0%) overtreffend. De 128-expert architectuur biedt diepe specialisatie over programmeertalen en frameworks. Echter, als je een volledige grote codebase tegelijk moet analyseren, laat Scout's 10M token contextvenster je alles in één aanroep laden voor cross-file analyse.

Kan ik elk Llama 4 model op een consument GPU draaien?

De volledige versies draaien vereist multi-GPU setups. Scout heeft ongeveer 220 GB VRAM nodig op volledige precisie, en Maverick heeft ongeveer 800 GB nodig. Echter, gekwantiseerde versies reduceren deze vereisten aanzienlijk. Scout met INT4 kwantisatie kan op ongeveer 55 GB passen, wat bereikbaar is met high-end consument GPU's. Maverick met INT4 heeft nog steeds ongeveer 200 GB nodig, waardoor het beter geschikt is voor cloud of enterprise hardware.

Wat is het verschil tussen Scout en Maverick in de Llama 4 familie?

Scout is geoptimaliseerd voor lange-context taken met een 10M token venster en 16 experts (109B totale parameters). Maverick prioriteert output kwaliteit met 128 experts en 400B totale parameters maar heeft een 1M token contextvenster. Beide activeren 17B parameters per token. Zie Scout als de groothoek lens en Maverick als de hoge-resolutie lens in hetzelfde camerasysteem.

Zijn alle Llama 4 modellen gratis en open weight?

Ja. Alle Llama 4 modellen zijn uitgebracht onder de Llama 3.1 compatibele licentie, die commercieel gebruik, fine-tuning en redistributie toestaat. Je kunt ze op je eigen infrastructuur deployen, producten erop bouwen en de weights wijzigen voor je specifieke behoeften. De licentie bevat gebruik drempels voor zeer grootschalige deployments die honderden miljoenen gebruikers bedienen.

Welk Llama 4 model moet ik kiezen voor document analyse?

Het hangt af van het volume en de complexiteit van je documenten. Voor het analyseren van grote collecties documenten, contracten of onderzoeksrapporten in één keer, is Scout's 10M token contextvenster ideaal. Voor kortere documenten waar je de hoogste kwaliteit extractie, samenvatting of redenering nodig hebt, produceert Maverick's 128-expert architectuur meer genuanceerde en nauwkeurige resultaten. Beide ondersteunen native beeldbegrip voor documenten met grafieken, tabellen en diagrammen.

Llama 4 Familie