Llama 4 Maverick

400B parameters, 128 experts - Meta's meest capabele open model

Llama 4 Maverick is het eerste open-weight model dat consistent GPT-4o overtreft over meerdere benchmark categorieën. Met 400B totale parameters gerouteerd door 128 gespecialiseerde experts en slechts 17B actief per token, levert het frontier-klasse redenering, coderen en multimodaal begrip zonder de kosten van een proprietary API. Of je nu geavanceerde code generatie, wetenschappelijke analyse of beeldbegrip nodig hebt, Llama 4 Maverick brengt de kwaliteit van closed-source leiders naar een open-weight pakket dat je overal kunt deployen.

Begin met Chatten Bekijk benchmarks

Model varianten

Instruction-tuned en base modellen

Kies tussen de instruction-tuned variant geoptimaliseerd voor chat en complexe taken, of het base model voor fine-tuning en onderzoek.

128-Expert MoE Architectuur

400B totale parameters, 17B actief per token

Maverick schaalt naar 128 experts vanaf Scout's 16, met 400B totale parameters terwijl dezelfde 17B actieve voetafdruk per token behouden blijft. Dit geeft het aanzienlijk sterkere redenering, coderen en multimodale mogelijkheden.

Het standaard chat model op deze site. Beste voor taken die maximale kwaliteit vereisen: complexe redenering, code generatie, multimodale analyse en onderzoeks synthese.

Begin met Chatten Zie mogelijkheden

Instruction-tuned

Maverick Instruct

Geoptimaliseerd voor conversationele AI, complexe redenering en code generatie

Fine-tuned met RLHF voor het volgen van instructies en multi-turn dialogen

Nu beschikbaar

Begin met Chatten Download weights

Pre-trained

Maverick Base

Foundation MoE-model voor fine-tuning en gespecialiseerde toepassingen

Pre-trained op diverse multimodale data met 128-expert routing

Nu beschikbaar

Bekijk op HuggingFace Documentatie

Mogelijkheden

Frontier prestaties van Llama 4 Maverick

Llama 4 Maverick combineert 128-expert MoE efficiëntie met geavanceerde redenering, sterk coderen en native multimodaal begrip. Elke mogelijkheid is tuned voor maximale kwaliteit bij 17B actieve parameters per token, waardoor het een praktisch alternatief is voor proprietary frontier modellen.

128-expert MoE

Routeert elke token door gespecialiseerde experts uit een pool van 128. De 400B totale parameters leveren frontier kwaliteit tegen slechts 17B inference kosten per token. Deze architectuur betekent dat elke expert diepe specialisatie kan ontwikkelen in specifieke domeinen, van wiskunde tot creatief schrijven, wat resulteert in consequent hoge kwaliteit over diverse taken.

Geavanceerde redenering

Sterke prestaties op MMLU Pro (80.5%) en GPQA Diamond (69.8%) toont diepe kennis en wetenschappelijke redenering. Llama 4 Maverick behandelt multi-step logica, wiskundige bewijzen en complexe analytische taken met nauwkeurigheid die proprietary alternatieven evenaart of overtreft. De 128-expert architectuur laat verschillende experts toe om gespecialiseerde kennis bij te dragen bij elke redeneringsstap.

Code generatie

Overtreft GPT-4o op coding benchmarks inclusief LiveCodeBench v5. Llama 4 Maverick genereert productie-klaar code over tientallen programmeertalen, debugt complexe problemen en legt algoritmische benaderingen duidelijk uit. Native function calling maakt agentische workflows mogelijk waarbij het model autonoom code kan uitvoeren, API's kan aanroepen en tool operaties kan ketenen.

1M token context

Verwerk lange documenten, codebases en uitgebreide gesprekken binnen een 1 miljoen token contextvenster. Terwijl Scout 10M tokens biedt voor extreme long-context taken, is het 1M venster in Llama 4 Maverick voldoende voor de meeste productie gebruikssituaties inclusief volledige project analyse, lange onderzoeksrapporten en multi-turn gesprekken die honderden uitwisselingen beslaan.

Native multimodaal

Early fusion architectuur verwerkt tekst en afbeeldingen samen native vanaf de basis. Analyseer screenshots, diagrammen, grafieken, technische tekeningen en documenten naast tekst zonder aparte vision pijplijnen. Llama 4 Maverick scoort 73.4% op MMMU, wat sterke visuele redenering toont die dedicated vision modellen evenaart.

Meertalig

Sterke prestaties over meerdere talen maakt Llama 4 Maverick geschikt voor wereldwijde toepassingen. Het model behandelt vertaling, cross-linguale redenering en cultureel genuanceerde content generatie met consistente kwaliteit. Of je gebruikers nu communiceren in het Engels, Chinees, Spaans, Frans of andere ondersteunde talen, de output kwaliteit blijft hoog.

Belangrijkste hoogtepunten

Waarom Llama 4 Maverick uitsteekt

Llama 4 Maverick is het eerste open-weight model dat consistent GPT-4o overtreft over meerdere benchmark categorieën.

Benchmark hoogtepunten

MMLU Pro 80.5% - competitief met frontier proprietary modellen
GPQA Diamond 69.8% - sterke wetenschappelijke redenering
MMMU 73.4% - uitstekend multimodaal begrip
Overtreft GPT-4o op coding benchmarks
Arena ELO competitief met top-tier modellen

Technische specs

400B totale parameters, 17B actief per token
128 experts in MoE architectuur
1M token contextvenster
Native multimodaal (tekst + beeld)
Llama 3.1 compatibele licentie

Start Gratis Chat Download weights

Prestaties

Frontier kwaliteit van Llama 4 Maverick

Llama 4 Maverick bereikt 80.5% op MMLU Pro en 73.4% op MMMU, GPT-4o overtreffend op meerdere benchmarks terwijl slechts 17B parameters per token geactiveerd worden.

De benchmark resultaten vertellen een dwingende story, maar real-world prestaties zijn waar Llama 4 Maverick zich echt bewijst. Ontwikkelaars rapporteren dat code generatie kwaliteit de beste proprietary modellen evenaart, met minder hallucinaties en nauwkeurigere functie implementaties. Onderzoekers vinden dat wetenschappelijke redenering taken goed gestructureerde, citation-aware responsen produceren. De 128-expert architectuur betekent dat het model kan putten uit diep gespecialiseerde kennis voor elke subtaak, wat resulteert in outputs die aanvoelen alsof ze van een domein expert komen in plaats van een generalist.

Begin met Chatten Bekijk model card

Llama 4 Maverick prestatie vergelijking grafiek

MMLU Pro 80.5% - frontier-klasse kennis en redenering

GPQA Diamond 69.8% - sterke wetenschappelijke redenering

MMMU 73.4% - uitstekend multimodaal begrip

Overtreft GPT-4o op coding benchmarks

17B actieve parameters van 400B totaal (128 experts)

Benchmark vergelijking

Maverick vs Scout en vorige generatie

Maverick's 128-expert architectuur levert significante verbeteringen boven Scout en Llama 3.1 over alle categorieën.

Benchmark	Llama 4 Maverick 128 experts Featured	Llama 4 Scout 16 experts	Llama 3.1 70B Dense	GPT-4o Proprietary
MMLU Pro Kennis & redenering	80.5%	74.3%	66.4%	78.4%
GPQA Diamond Wetenschappelijke kennis	69.8%	57.2%	46.7%	53.6%
LiveCodeBench v5 Coderen	43.4%	32.8%	28.5%	37.0%
MMMU Multimodaal	73.4%	69.4%	-	69.1%
Context Window Max tokens	1M	10M	128K	128K
Total Parameters Model grootte	400B	109B	70B	-
Active Parameters Per token	17B	17B	70B	-

Data van Meta's officiële model card en onafhankelijke evaluaties.

128-Expert Schaal

Hoe Llama 4 Maverick 400B capaciteit levert tegen 17B kosten

De 128-expert MoE architectuur in Llama 4 Maverick is een significante opschaling van Scout's 16 experts. Elke token wordt gerouteerd naar gespecialiseerde experts, wat het model toegang geeft tot 400B parameters aan kennis terwijl slechts 17B per forward pass geactiveerd wordt. Dit ontwerp maakt frontier-klasse kwaliteit mogelijk zonder frontier-klasse compute vereisten.

128 experts vs Scout's 16 voor 8x meer specialisatie per token
400B totale parameters vs Scout's 109B voor diepere kennis capaciteit
Zelfde 17B actieve parameter kosten per token als Scout voor efficiënte inference
Elke expert ontwikkelt diepe domein specialisatie tijdens training
Sparse routing zorgt voor optimale expert selectie voor elke input

Begin met Chatten Bekijk benchmarks

Llama 4 Maverick 128-expert MoE architecture

Multimodaal

Native beeldbegrip in Llama 4 Maverick

Llama 4 Maverick gebruikt early fusion architectuur om tekst en afbeeldingen samen native te verwerken. Visueel begrip is in het model ingebouwd vanaf de basis, niet er later als aparte module op gezet. Dit resulteert in naadloze redenering over beide modaliteiten met sterke prestaties op visuele benchmarks.

73.4% op MMMU multimodale benchmark, GPT-4o's 69.1% overtreffend
Early fusion architectuur voor native multimodale verwerking zonder aparte pijplijnen
Analyseer screenshots, diagrammen, grafieken en technische documenten met precisie
Combineer visuele analyse met code generatie voor UI development workflows
Verwerk gemengde content documenten die zowel tekst als ingebedde afbeeldingen bevatten

Probeer multimodale chat Meer informatie

Llama 4 Maverick multimodal capabilities

Coderen

Coderen en function calling met Llama 4 Maverick

Llama 4 Maverick overtreft GPT-4o op coding benchmarks en bevat native function calling voor het bouwen van autonome agent workflows. Of je nu productie code moet genereren, complexe problemen moet debuggen of tool-using agents moet bouwen, de 128-expert architectuur biedt gespecialiseerde kennis over programmeertalen en frameworks.

43.4% op LiveCodeBench v5, GPT-4o's 37.0% overtreffend op dezelfde benchmark
Native function calling maakt autonome agent workflows mogelijk zonder fine-tuning
Genereer productie-klaar code over Python, JavaScript, TypeScript, Rust en meer
Debug complexe multi-file problemen met volledig context bewustzijn over je codebase
Keten meerdere tool calls voor end-to-end taak automatisering in agentische toepassingen

Aan de slag

Probeer Llama 4 Maverick nu

Begin direct te chatten of download weights voor self-hosted deployment.

Chat met Maverick

Probeer Llama 4 Maverick direct - geen setup vereist

Model card

Volledige technische specificaties en benchmarks

Documentatie

Integratie gidsen en best practices

Download & deploy

Self-hosted deployment

Download officiële model weights voor deployment op je infrastructuur.

Hugging Face

Officieel Llama 4 Maverick model repository

Ollama

Draai lokaal met Ollama

GitHub

Broncode en voorbeelden

FAQ

Veelgestelde vragen over Llama 4 Maverick

Antwoorden op de meest voorkomende vragen over prestaties, deployment en praktisch gebruik van Llama 4 Maverick.

Overtreft Llama 4 Maverick echt GPT-4o op benchmarks?

Ja. Llama 4 Maverick overtreft GPT-4o op verschillende belangrijke benchmarks. Het scoort 80.5% op MMLU Pro vergeleken met GPT-4o's 78.4%, 69.8% op GPQA Diamond versus 53.6%, en 43.4% op LiveCodeBench v5 versus 37.0%. Op multimodale taken bereikt het 73.4% op MMMU vergeleken met GPT-4o's 69.1%. Deze resultaten komen van Meta's officiële evaluaties en onafhankelijke tests.

Hoeveel GPU's heb je nodig om Llama 4 Maverick te draaien?

Het draaien van Llama 4 Maverick op volledige precisie vereist ongeveer 800 GB VRAM, wat typisch een cluster van 8 of meer A100 80 GB GPU's betekent. Met INT8 kwantisatie kun je dit terugbrengen naar ongeveer 400 GB (ruwweg 5 A100 GPU's). INT4 kwantisatie brengt het verder terug naar ongeveer 200 GB. Cloud providers bieden ook hosted API toegang als lokale deployment niet praktisch is voor je setup.

Wat maakt de 128 expert architectuur speciaal in Llama 4 Maverick?

De 128-expert mixture of experts architectuur stelt Llama 4 Maverick in staat om 400B parameters aan kennis op te slaan terwijl slechts 17B per token geactiveerd wordt tijdens inference. Elke expert ontwikkelt diepe specialisatie tijdens training, zodat het routing mechanisme de meest relevante experts kan selecteren voor elke input. Dit geeft het model de kennis diepte van een 400B dense model tegen een fractie van de compute kosten.

Kan ik Llama 4 Maverick gebruiken voor commerciële projecten?

Ja. Llama 4 Maverick is uitgebracht onder de Llama 3.1 compatibele licentie, die commercieel gebruik toestaat. Je kunt producten bouwen, services deployen en het model fine-tunen voor je specifieke zakelijke behoeften. De licentie bevat gebruik drempels voor zeer grootschalige deployments, dus bekijk de volledige voorwaarden als je toepassing honderden miljoenen maandelijkse actieve gebruikers bedient.

Hoe behandelt Llama 4 Maverick beeldbegrip?

Llama 4 Maverick gebruikt early fusion architectuur, wat betekent dat beeldbegrip in het model is ingebouwd vanaf de basis in plaats van toegevoegd als aparte vision encoder. Het verwerkt tekst en afbeeldingen in een uniforme stream, wat natuurlijke redenering over beide modaliteiten mogelijk maakt. Het scoort 73.4% op MMMU, wat sterke prestaties toont op taken die begrip vereisen van grafieken, diagrammen, screenshots en documenten.

Wat is de beste manier om Llama 4 Maverick via een API te benaderen?

Verschillende cloud providers bieden hosted API toegang tot Llama 4 Maverick, inclusief services op AWS, Google Cloud, Azure en gespecialiseerde inference platforms zoals Together AI, Fireworks en Groq. Je kunt ook self-hosten met frameworks zoals vLLM of TGI. Voor snelle experimentatie draait de chat interface op deze site Llama 4 Maverick als het standaard model zonder setup vereist.

Llama 4 Familie