Llama 4 Modellen
Twee modellen, één familie - van lange context tot frontier kwaliteit
De Llama 4 modellen vertegenwoordigen Meta's meest ambitieuze open-weight release tot nu toe. Deze familie bevat twee mixture of experts architecturen ontworpen voor verschillende prioriteiten: Scout behandelt enorme context met een 10 miljoen token venster over 16 experts, terwijl Maverick frontier-klasse kwaliteit levert door 128 experts en 400B totale parameters. Beide delen 17B actieve parameters per token en native multimodale ondersteuning, wat je de flexibiliteit geeft om de juiste balans te kiezen tussen context lengte en output kwaliteit voor jouw specifieke workflow.
Alle modellen
Kies de juiste optie uit de Llama 4 modellen
Scout en Maverick zijn geoptimaliseerd voor verschillende scenario's. Hun sterke punten begrijpen helpt je de variant te kiezen die matcht met je workload, of dat nu betekent volledige codebases verwerken of de hoogste kwaliteit redenering en code genereren.
Llama 4 Scout
10M contextvenster - de lange-context specialist
109B totale parameters over 16 experts met 17B actief per token. De opvallende feature is het 10 miljoen token contextvenster, het langste van elk open beschikbaar model. Scout blinkt uit wanneer je taak grote volumes informatie in één keer vereist, van volledige repositories tot multi-document onderzoek collecties. Needle-in-a-haystack tests bevestigen 95% retrieval nauwkeurigheid tot 8 miljoen tokens.
Kies Scout wanneer je volledige codebases, multi-document onderzoek sets of zeer lange gespreksgeschiedenissen in één aanroep moet verwerken. Het is de beste optie wanneer context lengte meer uitmaakt dan marginale kwaliteitsverschillen.
Llama 4 Maverick
128 experts, 400B parameters - het kwaliteit vlaggenschip
400B totale parameters over 128 experts met 17B actief per token. Maverick overtreft GPT-4o op belangrijke benchmarks inclusief MMLU Pro, GPQA Diamond en LiveCodeBench. De 128-expert architectuur biedt diepe specialisatie over domeinen, waardoor het het sterkste open-weight model is voor redenering, coderen en multimodale taken. Het biedt een 1M token contextvenster voor de meeste productie behoeften.
Kies Maverick wanneer je maximale kwaliteit nodig hebt voor redenering, coderen, multimodale analyse en complexe taakvoltooiing. Het is het standaard chat model op deze site met reden.
Lange Context
Llama 4 Scout
109B totaal, 17B actief, 16 experts. 10M token contextvenster.
Best voor: volledige codebases, multi-document analyse, lange onderzoeksrapporten, uitgebreide gesprekken.
Vlaggenschip
Llama 4 Maverick
400B totaal, 17B actief, 128 experts. Verslaat GPT-4o op benchmarks.
Best voor: complexe redenering, code generatie, multimodale taken, onderzoeks synthese.
Gedeelde mogelijkheden
Wat alle Llama 4 modellen kunnen doen
Scout en Maverick delen een gemeenschappelijke set mogelijkheden gebouwd op Meta's mixture of experts architectuur. Deze gedeelde fundamenten betekenen dat je tussen de twee varianten kunt wisselen zonder je integratie code te veranderen.
Native multimodaal
Beide Llama 4 modellen verwerken tekst en afbeeldingen native met early fusion architectuur. Visueel begrip is in de basis ingebouwd, niet toegevoegd als aparte encoder. Dit betekent dat je gemengde content kunt sturen, inclusief screenshots, diagrammen en documenten naast tekst, en coherent redeneren krijgt over beide modaliteiten.
MoE efficiëntie
Beide Llama 4 modellen activeren slechts 17B parameters per token ondanks hun grote totale parameter aantallen. Scout gebruikt 16 experts met 109B totaal, Maverick gebruikt 128 experts met 400B totaal. Deze sparse routing strategie levert sterke prestaties tegen een fractie van de compute kosten van equivalente dense architecturen.
Function calling
Ingebouwde function calling over beide Llama 4 modellen maakt agentische workflows mogelijk zonder extra fine-tuning. Definieer je tools en het model beslist wanneer en hoe ze aan te roepen. Dit maakt het eenvoudig om autonome agents te bouwen die databases bevragen, API's aanroepen, code uitvoeren en operaties ketenen.
Uitgebreide context
Scout biedt een 10M token contextvenster voor extreme long-document taken, terwijl Maverick 1M tokens biedt voor de meeste productie scenario's. Beide ver overschrijden de 128K limiet van vorige generatie modellen, wat je ruimte geeft om meer context, meer voorbeelden en meer geschiedenis in elk verzoek op te nemen.
Meertalig
Sterke meertalige ondersteuning over beide Llama 4 modellen maakt wereldwijde toepassingen mogelijk. Of je gebruikers nu communiceren in het Engels, Chinees, Spaans, Frans of andere ondersteunde talen, beide varianten behouden consistente kwaliteit met cultureel bewuste responsen.
Open weights
Beide Llama 4 modellen zijn volledig open-weight onder de Llama 3.1 compatibele licentie. Deploy overal, wijzig vrij en fine-tune voor je specifieke behoeften. Deze openheid betekent geen vendor lock-in, volledige transparantie in model gedrag en de mogelijkheid om volledig op je eigen infrastructuur te draaien.
Snelle selectie gids
Welke van de Llama 4 modellen moet je kiezen?
Match je primaire gebruikssituatie met de juiste variant.
Kies Scout wanneer
- Je zeer lange documenten moet verwerken (10M tokens)
- Volledige codebase analyse over honderden bestanden
- Multi-document onderzoek en synthese
- Uitgebreide gespreksgeschiedenissen
- Lagere geheugen vereisten (109B vs 400B totaal)
Kies Maverick wanneer
- Maximale kwaliteit de prioriteit is
- Complexe redenering en wetenschappelijke taken
- Code generatie en debugging
- Multimodale analyse (screenshots, diagrammen)
- Taken waar benchmark prestatie het meest uitmaakt
Prestaties
Volledige benchmark vergelijking over Llama 4 modellen
Scout optimaliseert voor context lengte, Maverick voor ruwe kwaliteit. Beide leveren sterke prestaties relatief aan hun ontwerp doelen.
Kiezen tussen de Llama 4 modellen komt neer op je primaire behoefte. Als je workflow grote volumes tekst, code of documenten in één aanroep verwerken betreft, is Scout's 10M token contextvenster ongeëvenaard. Als je de hoogst mogelijke kwaliteit nodig hebt voor redenering, coderen of multimodale taken, levert Maverick's 128-expert architectuur frontier-klasse resultaten die concurreren met de beste proprietary aanbiedingen. Veel teams gebruiken beide: Maverick voor kwaliteit-kritieke taken en Scout voor grootschalige analyse.
Maverick: 80.5% MMLU Pro, 73.4% MMMU, verslaat GPT-4o op coderen
Scout: 10M token context, 95%+ retrieval bij 8M tokens
Beide: 17B actieve parameters, native multimodaal, function calling
Beide: open-weight onder Llama 3.1 compatibele licentie
Volledige vergelijking
Scout vs Maverick zij aan zij
Volledige benchmark resultaten over redenering, coderen, multimodaal en deployment metrics.
| Benchmark | Maverick 128 experts Vlaggenschip | Scout 16 experts Lange Context |
|---|---|---|
MMLU Pro Kennis & redenering | 80.5% | 74.3% |
GPQA Diamond Wetenschappelijke kennis | 69.8% | 57.2% |
LiveCodeBench v5 Coderen | 43.4% | 32.8% |
MMMU Multimodaal | 73.4% | 69.4% |
Context Window Max tokens | 1M | 10M |
Total Parameters Model grootte | 400B | 109B |
Active Parameters Per token | 17B | 17B |
Number of Experts MoE routing | 128 | 16 |
Data van Meta's officiële model card en onafhankelijke evaluaties.
Scout
Llama 4 Scout: wanneer context lengte alles is
Scout's 10M token contextvenster is ongeëvenaard onder de Llama 4 modellen en over het hele open-weight landschap. Het kan volledige codebases, multi-document onderzoek sets en uren aan transcripties in één aanroep verwerken. Als je taak zeer lange inputs betreft, is Scout de duidelijke keuze.
- 10M token context, het langste van elk open model vandaag beschikbaar
- 95%+ retrieval nauwkeurigheid tot 8M tokens in needle-in-a-haystack tests
- 109B totale parameters over 16 experts met 17B actief per token
- Verwerk volledige GitHub repositories voor uitgebreide code review
- Ideaal voor juridische document analyse, onderzoeks synthese en audit workflows
Maverick
Llama 4 Maverick: wanneer kwaliteit de prioriteit is
Maverick's 128-expert architectuur levert frontier-klasse prestaties die GPT-4o overtreft op belangrijke benchmarks. Het is het standaard model op deze site met reden: het behandelt complexe redenering, coderen en multimodale taken met de kwaliteit die je zou verwachten van de beste proprietary alternatieven.
- 80.5% MMLU Pro voor frontier-klasse kennis en redenering
- Overtreft GPT-4o op coding benchmarks met 43.4% op LiveCodeBench v5
- 400B totale parameters over 128 experts voor diepe domein specialisatie
- 73.4% op MMMU voor sterk multimodaal begrip van afbeeldingen en documenten
- Native function calling voor het bouwen van autonome agent workflows
Selectie Gids
De juiste optie kiezen uit de Llama 4 modellen
Kiezen tussen de Llama 4 modellen hangt af van wat het belangrijkst is voor je specifieke workflow. Beide delen dezelfde 17B actieve parameter voetafdruk en native multimodale ondersteuning, dus de beslissing komt neer op context lengte versus output kwaliteit. Veel teams vinden waarde in beide varianten te gebruiken voor verschillende delen van hun pijplijn.
- Kies Scout voor taken die meer dan 1 miljoen tokens tegelijk vereisen
- Kies Maverick voor taken waar output kwaliteit en redeneringsdiepte het meest uitmaken
- Beide delen 17B actieve parameters, dus inference kosten per token zijn vergelijkbaar
- Gebruik Scout voor inname en analyse, dan Maverick voor synthese en generatie
- Beide draaien onder dezelfde open-weight licentie, dus je kunt beide vrij deployen
Probeer nu
Begin met chatten met Llama 4
Probeer beide modellen direct via onze chat interface.
Download
Haal model weights
Download officiële weights voor beide Llama 4 varianten.
FAQ
Veelgestelde vragen over Llama 4 modellen
Antwoorden op de meest voorkomende vragen over kiezen, draaien en deployen van de Llama 4 modellen voor je projecten.
Er zijn momenteel twee Llama 4 modellen: Scout en Maverick. Elk komt in twee varianten, een instruction-tuned versie geoptimaliseerd voor chat en taakvoltooiing, en een base pre-trained versie voor fine-tuning en onderzoek. Dat geeft je vier totale checkpoints om uit te kiezen afhankelijk van of je een kant-en-klare conversationele model nodig hebt of een foundation voor custom training.
Maverick is de sterkere keuze voor coder taken. Het scoort 43.4% op LiveCodeBench v5, zowel Scout (32.8%) als GPT-4o (37.0%) overtreffend. De 128-expert architectuur biedt diepe specialisatie over programmeertalen en frameworks. Echter, als je een volledige grote codebase tegelijk moet analyseren, laat Scout's 10M token contextvenster je alles in één aanroep laden voor cross-file analyse.
De volledige versies draaien vereist multi-GPU setups. Scout heeft ongeveer 220 GB VRAM nodig op volledige precisie, en Maverick heeft ongeveer 800 GB nodig. Echter, gekwantiseerde versies reduceren deze vereisten aanzienlijk. Scout met INT4 kwantisatie kan op ongeveer 55 GB passen, wat bereikbaar is met high-end consument GPU's. Maverick met INT4 heeft nog steeds ongeveer 200 GB nodig, waardoor het beter geschikt is voor cloud of enterprise hardware.
Scout is geoptimaliseerd voor lange-context taken met een 10M token venster en 16 experts (109B totale parameters). Maverick prioriteert output kwaliteit met 128 experts en 400B totale parameters maar heeft een 1M token contextvenster. Beide activeren 17B parameters per token. Zie Scout als de groothoek lens en Maverick als de hoge-resolutie lens in hetzelfde camerasysteem.
Ja. Alle Llama 4 modellen zijn uitgebracht onder de Llama 3.1 compatibele licentie, die commercieel gebruik, fine-tuning en redistributie toestaat. Je kunt ze op je eigen infrastructuur deployen, producten erop bouwen en de weights wijzigen voor je specifieke behoeften. De licentie bevat gebruik drempels voor zeer grootschalige deployments die honderden miljoenen gebruikers bedienen.
Het hangt af van het volume en de complexiteit van je documenten. Voor het analyseren van grote collecties documenten, contracten of onderzoeksrapporten in één keer, is Scout's 10M token contextvenster ideaal. Voor kortere documenten waar je de hoogste kwaliteit extractie, samenvatting of redenering nodig hebt, produceert Maverick's 128-expert architectuur meer genuanceerde en nauwkeurige resultaten. Beide ondersteunen native beeldbegrip voor documenten met grafieken, tabellen en diagrammen.
Llama 4 Familie
Ontdek elk model en vergelijk met concurrenten
Duik dieper in elke variant of zie hoe de Llama 4 modellen zich verhouden tot andere frontier open modellen.
Aan de slag
Vind je ideale optie onder de Llama 4 modellen
Begin gratis te chatten met beide varianten, of download weights voor lokale deployment. Beide zijn open-weight en klaar voor gebruik.