Llama 4 Maverick
400B parameters, 128 experts - Meta's meest capabele open model
Llama 4 Maverick is het eerste open-weight model dat consistent GPT-4o overtreft over meerdere benchmark categorieën. Met 400B totale parameters gerouteerd door 128 gespecialiseerde experts en slechts 17B actief per token, levert het frontier-klasse redenering, coderen en multimodaal begrip zonder de kosten van een proprietary API. Of je nu geavanceerde code generatie, wetenschappelijke analyse of beeldbegrip nodig hebt, Llama 4 Maverick brengt de kwaliteit van closed-source leiders naar een open-weight pakket dat je overal kunt deployen.
Model varianten
Instruction-tuned en base modellen
Kies tussen de instruction-tuned variant geoptimaliseerd voor chat en complexe taken, of het base model voor fine-tuning en onderzoek.
128-Expert MoE Architectuur
400B totale parameters, 17B actief per token
Maverick schaalt naar 128 experts vanaf Scout's 16, met 400B totale parameters terwijl dezelfde 17B actieve voetafdruk per token behouden blijft. Dit geeft het aanzienlijk sterkere redenering, coderen en multimodale mogelijkheden.
Het standaard chat model op deze site. Beste voor taken die maximale kwaliteit vereisen: complexe redenering, code generatie, multimodale analyse en onderzoeks synthese.
Instruction-tuned
Maverick Instruct
Geoptimaliseerd voor conversationele AI, complexe redenering en code generatie
Fine-tuned met RLHF voor het volgen van instructies en multi-turn dialogen
Pre-trained
Maverick Base
Foundation MoE-model voor fine-tuning en gespecialiseerde toepassingen
Pre-trained op diverse multimodale data met 128-expert routing
Mogelijkheden
Frontier prestaties van Llama 4 Maverick
Llama 4 Maverick combineert 128-expert MoE efficiëntie met geavanceerde redenering, sterk coderen en native multimodaal begrip. Elke mogelijkheid is tuned voor maximale kwaliteit bij 17B actieve parameters per token, waardoor het een praktisch alternatief is voor proprietary frontier modellen.
128-expert MoE
Routeert elke token door gespecialiseerde experts uit een pool van 128. De 400B totale parameters leveren frontier kwaliteit tegen slechts 17B inference kosten per token. Deze architectuur betekent dat elke expert diepe specialisatie kan ontwikkelen in specifieke domeinen, van wiskunde tot creatief schrijven, wat resulteert in consequent hoge kwaliteit over diverse taken.
Geavanceerde redenering
Sterke prestaties op MMLU Pro (80.5%) en GPQA Diamond (69.8%) toont diepe kennis en wetenschappelijke redenering. Llama 4 Maverick behandelt multi-step logica, wiskundige bewijzen en complexe analytische taken met nauwkeurigheid die proprietary alternatieven evenaart of overtreft. De 128-expert architectuur laat verschillende experts toe om gespecialiseerde kennis bij te dragen bij elke redeneringsstap.
Code generatie
Overtreft GPT-4o op coding benchmarks inclusief LiveCodeBench v5. Llama 4 Maverick genereert productie-klaar code over tientallen programmeertalen, debugt complexe problemen en legt algoritmische benaderingen duidelijk uit. Native function calling maakt agentische workflows mogelijk waarbij het model autonoom code kan uitvoeren, API's kan aanroepen en tool operaties kan ketenen.
1M token context
Verwerk lange documenten, codebases en uitgebreide gesprekken binnen een 1 miljoen token contextvenster. Terwijl Scout 10M tokens biedt voor extreme long-context taken, is het 1M venster in Llama 4 Maverick voldoende voor de meeste productie gebruikssituaties inclusief volledige project analyse, lange onderzoeksrapporten en multi-turn gesprekken die honderden uitwisselingen beslaan.
Native multimodaal
Early fusion architectuur verwerkt tekst en afbeeldingen samen native vanaf de basis. Analyseer screenshots, diagrammen, grafieken, technische tekeningen en documenten naast tekst zonder aparte vision pijplijnen. Llama 4 Maverick scoort 73.4% op MMMU, wat sterke visuele redenering toont die dedicated vision modellen evenaart.
Meertalig
Sterke prestaties over meerdere talen maakt Llama 4 Maverick geschikt voor wereldwijde toepassingen. Het model behandelt vertaling, cross-linguale redenering en cultureel genuanceerde content generatie met consistente kwaliteit. Of je gebruikers nu communiceren in het Engels, Chinees, Spaans, Frans of andere ondersteunde talen, de output kwaliteit blijft hoog.
Belangrijkste hoogtepunten
Waarom Llama 4 Maverick uitsteekt
Llama 4 Maverick is het eerste open-weight model dat consistent GPT-4o overtreft over meerdere benchmark categorieën.
Benchmark hoogtepunten
- MMLU Pro 80.5% - competitief met frontier proprietary modellen
- GPQA Diamond 69.8% - sterke wetenschappelijke redenering
- MMMU 73.4% - uitstekend multimodaal begrip
- Overtreft GPT-4o op coding benchmarks
- Arena ELO competitief met top-tier modellen
Technische specs
- 400B totale parameters, 17B actief per token
- 128 experts in MoE architectuur
- 1M token contextvenster
- Native multimodaal (tekst + beeld)
- Llama 3.1 compatibele licentie
Prestaties
Frontier kwaliteit van Llama 4 Maverick
Llama 4 Maverick bereikt 80.5% op MMLU Pro en 73.4% op MMMU, GPT-4o overtreffend op meerdere benchmarks terwijl slechts 17B parameters per token geactiveerd worden.
De benchmark resultaten vertellen een dwingende story, maar real-world prestaties zijn waar Llama 4 Maverick zich echt bewijst. Ontwikkelaars rapporteren dat code generatie kwaliteit de beste proprietary modellen evenaart, met minder hallucinaties en nauwkeurigere functie implementaties. Onderzoekers vinden dat wetenschappelijke redenering taken goed gestructureerde, citation-aware responsen produceren. De 128-expert architectuur betekent dat het model kan putten uit diep gespecialiseerde kennis voor elke subtaak, wat resulteert in outputs die aanvoelen alsof ze van een domein expert komen in plaats van een generalist.
MMLU Pro 80.5% - frontier-klasse kennis en redenering
GPQA Diamond 69.8% - sterke wetenschappelijke redenering
MMMU 73.4% - uitstekend multimodaal begrip
Overtreft GPT-4o op coding benchmarks
17B actieve parameters van 400B totaal (128 experts)
Benchmark vergelijking
Maverick vs Scout en vorige generatie
Maverick's 128-expert architectuur levert significante verbeteringen boven Scout en Llama 3.1 over alle categorieën.
| Benchmark | Llama 4 Maverick 128 experts Featured | Llama 4 Scout 16 experts | Llama 3.1 70B Dense | GPT-4o Proprietary |
|---|---|---|---|---|
MMLU Pro Kennis & redenering | 80.5% | 74.3% | 66.4% | 78.4% |
GPQA Diamond Wetenschappelijke kennis | 69.8% | 57.2% | 46.7% | 53.6% |
LiveCodeBench v5 Coderen | 43.4% | 32.8% | 28.5% | 37.0% |
MMMU Multimodaal | 73.4% | 69.4% | - | 69.1% |
Context Window Max tokens | 1M | 10M | 128K | 128K |
Total Parameters Model grootte | 400B | 109B | 70B | - |
Active Parameters Per token | 17B | 17B | 70B | - |
Data van Meta's officiële model card en onafhankelijke evaluaties.
128-Expert Schaal
Hoe Llama 4 Maverick 400B capaciteit levert tegen 17B kosten
De 128-expert MoE architectuur in Llama 4 Maverick is een significante opschaling van Scout's 16 experts. Elke token wordt gerouteerd naar gespecialiseerde experts, wat het model toegang geeft tot 400B parameters aan kennis terwijl slechts 17B per forward pass geactiveerd wordt. Dit ontwerp maakt frontier-klasse kwaliteit mogelijk zonder frontier-klasse compute vereisten.
- 128 experts vs Scout's 16 voor 8x meer specialisatie per token
- 400B totale parameters vs Scout's 109B voor diepere kennis capaciteit
- Zelfde 17B actieve parameter kosten per token als Scout voor efficiënte inference
- Elke expert ontwikkelt diepe domein specialisatie tijdens training
- Sparse routing zorgt voor optimale expert selectie voor elke input
Multimodaal
Native beeldbegrip in Llama 4 Maverick
Llama 4 Maverick gebruikt early fusion architectuur om tekst en afbeeldingen samen native te verwerken. Visueel begrip is in het model ingebouwd vanaf de basis, niet er later als aparte module op gezet. Dit resulteert in naadloze redenering over beide modaliteiten met sterke prestaties op visuele benchmarks.
- 73.4% op MMMU multimodale benchmark, GPT-4o's 69.1% overtreffend
- Early fusion architectuur voor native multimodale verwerking zonder aparte pijplijnen
- Analyseer screenshots, diagrammen, grafieken en technische documenten met precisie
- Combineer visuele analyse met code generatie voor UI development workflows
- Verwerk gemengde content documenten die zowel tekst als ingebedde afbeeldingen bevatten
Coderen
Coderen en function calling met Llama 4 Maverick
Llama 4 Maverick overtreft GPT-4o op coding benchmarks en bevat native function calling voor het bouwen van autonome agent workflows. Of je nu productie code moet genereren, complexe problemen moet debuggen of tool-using agents moet bouwen, de 128-expert architectuur biedt gespecialiseerde kennis over programmeertalen en frameworks.
- 43.4% op LiveCodeBench v5, GPT-4o's 37.0% overtreffend op dezelfde benchmark
- Native function calling maakt autonome agent workflows mogelijk zonder fine-tuning
- Genereer productie-klaar code over Python, JavaScript, TypeScript, Rust en meer
- Debug complexe multi-file problemen met volledig context bewustzijn over je codebase
- Keten meerdere tool calls voor end-to-end taak automatisering in agentische toepassingen
Aan de slag
Probeer Llama 4 Maverick nu
Begin direct te chatten of download weights voor self-hosted deployment.
Download & deploy
Self-hosted deployment
Download officiële model weights voor deployment op je infrastructuur.
FAQ
Veelgestelde vragen over Llama 4 Maverick
Antwoorden op de meest voorkomende vragen over prestaties, deployment en praktisch gebruik van Llama 4 Maverick.
Ja. Llama 4 Maverick overtreft GPT-4o op verschillende belangrijke benchmarks. Het scoort 80.5% op MMLU Pro vergeleken met GPT-4o's 78.4%, 69.8% op GPQA Diamond versus 53.6%, en 43.4% op LiveCodeBench v5 versus 37.0%. Op multimodale taken bereikt het 73.4% op MMMU vergeleken met GPT-4o's 69.1%. Deze resultaten komen van Meta's officiële evaluaties en onafhankelijke tests.
Het draaien van Llama 4 Maverick op volledige precisie vereist ongeveer 800 GB VRAM, wat typisch een cluster van 8 of meer A100 80 GB GPU's betekent. Met INT8 kwantisatie kun je dit terugbrengen naar ongeveer 400 GB (ruwweg 5 A100 GPU's). INT4 kwantisatie brengt het verder terug naar ongeveer 200 GB. Cloud providers bieden ook hosted API toegang als lokale deployment niet praktisch is voor je setup.
De 128-expert mixture of experts architectuur stelt Llama 4 Maverick in staat om 400B parameters aan kennis op te slaan terwijl slechts 17B per token geactiveerd wordt tijdens inference. Elke expert ontwikkelt diepe specialisatie tijdens training, zodat het routing mechanisme de meest relevante experts kan selecteren voor elke input. Dit geeft het model de kennis diepte van een 400B dense model tegen een fractie van de compute kosten.
Ja. Llama 4 Maverick is uitgebracht onder de Llama 3.1 compatibele licentie, die commercieel gebruik toestaat. Je kunt producten bouwen, services deployen en het model fine-tunen voor je specifieke zakelijke behoeften. De licentie bevat gebruik drempels voor zeer grootschalige deployments, dus bekijk de volledige voorwaarden als je toepassing honderden miljoenen maandelijkse actieve gebruikers bedient.
Llama 4 Maverick gebruikt early fusion architectuur, wat betekent dat beeldbegrip in het model is ingebouwd vanaf de basis in plaats van toegevoegd als aparte vision encoder. Het verwerkt tekst en afbeeldingen in een uniforme stream, wat natuurlijke redenering over beide modaliteiten mogelijk maakt. Het scoort 73.4% op MMMU, wat sterke prestaties toont op taken die begrip vereisen van grafieken, diagrammen, screenshots en documenten.
Verschillende cloud providers bieden hosted API toegang tot Llama 4 Maverick, inclusief services op AWS, Google Cloud, Azure en gespecialiseerde inference platforms zoals Together AI, Fireworks en Groq. Je kunt ook self-hosten met frameworks zoals vLLM of TGI. Voor snelle experimentatie draait de chat interface op deze site Llama 4 Maverick als het standaard model zonder setup vereist.
Llama 4 Familie
Ontdek de volledige Llama 4 lineup
Maverick is Meta's vlaggenschip open model. Vergelijk het met Scout en zie hoe het zich verhoudt tot andere frontier modellen.
Aan de slag
Klaar om Llama 4 Maverick te proberen?
Begin direct gratis te chatten. Maverick is het standaard model op deze site - geen setup vereist.