Llama 4 Scout

10 miljoen tokens context - het langste venster in elk open model

Llama 4 Scout herdefinieert wat een enkele modelaanroep kan bereiken. Gebouwd op Meta's mixture of experts architectuur met 109B totale parameters en slechts 17B actief per token, levert het het langste contextvenster van elk open beschikbaar model op 10 miljoen tokens. Voed het met een volledige codebase over honderden bestanden, een volledige onderzoeksbibliotheek met tientallen papers, of uren aan vergadertranscripties. Waar andere modellen je dwingen te chunken en samen te vatten, verwerkt Llama 4 Scout alles tegelijk, waarbij cross-document relaties en subtiele verbindingen behouden blijven die chunken zou vernietigen.

Begin met Chatten Bekijk benchmarks

Model varianten

Instruction-tuned en base modellen

Kies tussen de instruction-tuned variant geoptimaliseerd voor chat en lange-context taken, of het base model voor fine-tuning en custom toepassingen.

Mixture-of-Experts Architectuur

109B totale parameters, 17B actief per token

Llama 4 Scout gebruikt een sparse MoE ontwerp met 16 experts, waarbij 17B parameters per forward pass geactiveerd worden. De opvallende feature is het 10 miljoen token contextvenster - het langste van elk open beschikbaar model.

Ideaal voor taken die grote hoeveelheden tekst vereisen: volledige codebases, multi-document analyse, lange onderzoeksrapporten en uitgebreide gespreksgeschiedenissen.

Begin met Chatten Zie mogelijkheden

Instruction-tuned

Scout Instruct

Geoptimaliseerd voor conversationele AI en lange-context taakvoltooiing

Fine-tuned voor het volgen van instructies, multi-turn dialogen en het verwerken van zeer lange inputs

Nu beschikbaar

Begin met Chatten Download weights

Pre-trained

Scout Base

Foundation MoE-model voor fine-tuning en gespecialiseerde toepassingen

Pre-trained op diverse multimodale data met 16-expert routing

Nu beschikbaar

Bekijk op HuggingFace Documentatie

Mogelijkheden

Wat Llama 4 Scout een lange context krachtpatser maakt

Llama 4 Scout combineert een ongeëvenaard 10M token contextvenster met MoE efficiëntie, native multimodale ondersteuning en sterke redeneringsmogelijkheden. Elke feature is ontworpen om taken aan te kunnen die grote volumes informatie in één keer vereisen.

10M token contextvenster

Het langste contextvenster van elk open beschikbaar model. Verwerk volledige codebes over 50.000 regels over honderden bestanden, multi-document onderzoeksbibliotheken of uren aan gesprekken in één aanroep. Needle in a haystack tests bevestigen 95% retrieval nauwkeurigheid tot 8 miljoen tokens, met 89% nauwkeurigheid op de volledige 10 miljoen token limiet.

MoE efficiëntie

Activeert slechts 17B parameters per token uit een 109B pool over 16 experts. Deze sparse routing strategie levert sterke prestaties tegen een fractie van de compute kosten van dense modellen met vergelijkbare totale parameter aantallen. Het resultaat is praktische deployment op minder GPU's dan je zou verwachten voor een model van deze capaciteit.

Code analyse op schaal

Laad volledige repositories in context voor cross-file analyse, dependency tracking en grootschalige refactoring taken. Llama 4 Scout kan functieaanroepen over modules traceren, ongebruikte imports identificeren en architecturale verbeteringen suggereren terwijl het het volledige beeld van je codebase tegelijk ziet.

Agentische workflows

Native function calling en tool use ondersteuning maakt autonome agents mogelijk zonder extra fine-tuning. Bouw workflows die meerdere tools ketenen, databases bevragen, API's aanroepen en resultaten in volgorde verwerken. Het uitgebreide contextvenster betekent dat agents rijke state kunnen behouden over veel interactie stappen.

Meertalige ondersteuning

Sterke prestaties over meerdere talen met culturele context begrip voor wereldwijde toepassingen. Of je nu documenten analyseert in het Engels, Chinees, Spaans of andere ondersteunde talen, Llama 4 Scout behoudt consistente kwaliteit en genuanceerd begrip over taalgrenzen.

Native multimodaal

Verwerk tekst en afbeeldingen samen met early fusion architectuur. Analyseer screenshots, diagrammen, grafieken en documenten naast tekst zonder aparte vision pijplijnen nodig te hebben. De multimodale mogelijkheid is in het model ingebouwd vanaf de basis, wat naadloze redenering over visuele en tekstuele informatie mogelijk maakt.

Belangrijkste hoogtepunten

Waarom het Llama 4 Scout contextvenster ertoe doet

Een 10M token contextvenster verandert wat mogelijk is met een enkele modelaanroep.

Wat je in 10M tokens kunt passen

Een volledige middelgrote codebase (50K+ regels over honderden bestanden)
Meerdere onderzoeksrapporten of een compleet boek
Uren aan vergadertranscripties of gespreksgeschiedenis
Volledige documentatie sets voor complexe systemen
95%+ retrieval nauwkeurigheid tot 8M tokens in needle-in-a-haystack tests

Technische specs

109B totale parameters, 17B actief per token
16 experts in MoE architectuur
10M token contextvenster
Native multimodaal (tekst + beeld)
Llama 3.1 compatibele licentie

Start Gratis Chat Download weights

Prestaties

Lange-context specialist met competitieve redenering

Llama 4 Scout levert sterke prestaties over standaard benchmarks terwijl het een ongeëvenaard 10M token contextvenster biedt voor lange-document taken.

In real-world gebruik blinkt Llama 4 Scout uit wanneer taken grote volumes informatie vereisen. Ontwikkelaars rapporteren succesvol volledige GitHub repositories te laden voor uitgebreide code review, onderzoekers voeden complete paper collecties voor literatuur synthese, en juridische teams verwerken volledige contract bibliotheken voor clausule vergelijking. Terwijl Maverick leidt op ruwe benchmark scores, maakt Scout's 10M contextvenster het de duidelijke keuze voor workflows waar alles tegelijk zien waardevoller is dan marginale kwaliteitswinst op korte prompts.

Begin met Chatten Bekijk model card

Llama 4 Scout prestatie vergelijking grafiek

10M token contextvenster - langste van elk open model

95%+ retrieval nauwkeurigheid tot 8M tokens

17B actieve parameters van 109B totaal (16 experts)

Competitief met modellen 2-3x zijn actieve parameter aantal

Native multimodale ondersteuning voor tekst en beeld inputs

Benchmark vergelijking

Scout vs Maverick en de Llama 4 familie

Scout ruilt wat ruwe benchmark prestatie in voor zijn enorme contextvenster voordeel.

Benchmark	Llama 4 Scout 16 experts Featured	Llama 4 Maverick 128 experts	Llama 3.1 70B Dense
MMLU Pro Kennis & redenering	74.3%	80.5%	66.4%
GPQA Diamond Wetenschappelijke kennis	57.2%	69.8%	46.7%
LiveCodeBench v5 Coderen	32.8%	43.4%	28.5%
MMMU Multimodaal	69.4%	73.4%	-
Context Window Max tokens	10M	1M	128K
Total Parameters Model grootte	109B	400B	70B
Active Parameters Per token	17B	17B	70B

Data van Meta's officiële model card en onafhankelijke evaluaties.

Lange Context

10M tokens: verwerk volledige codebases met Llama 4 Scout

Het 10M token contextvenster in Llama 4 Scout is het langste van elk open beschikbaar model. Laad volledige repositories, multi-document onderzoek sets of uren aan transcripties in een enkele context voor uitgebreide analyse zonder informatie te verliezen aan chunking of samenvatting.

95%+ retrieval nauwkeurigheid tot 8M tokens in needle-in-a-haystack tests
89% nauwkeurigheid op de volledige 10M token limiet voor betrouwbare long-range retrieval
Verwerk 50K+ regels code over honderden bestanden tegelijk
Analyseer complete onderzoekspaper collecties zonder documenten te splitsen
Behoud volledige gespreksgeschiedenis over uitgebreide multi-turn sessies

Probeer lange-context taken Bekijk benchmarks

MoE Architectuur

Hoe Llama 4 Scout 109B capaciteit levert tegen 17B kosten

De 16-expert MoE architectuur in Llama 4 Scout activeert slechts 17B parameters per token terwijl de representationele capaciteit van een veel groter model behouden blijft. Dit maakt het praktisch om op een enkele node te deployen terwijl nog sterke prestaties over redenering, coderen en analyse taken geleverd worden.

16 experts met 17B actieve parameters per forward pass voor efficiënte inference
Zelfde actieve parameter aantal als Maverick tegen significant lager totaal geheugen
Praktisch voor single-node deployment scenario's met minder GPU vereisten
Sparse routing zorgt ervoor dat elke token gespecialiseerde expert aandacht krijgt
Lagere operationele kosten vergeleken met dense modellen met vergelijkbare totale parameters

Begin met Chatten Vergelijk met Maverick

Multimodaal

Multimodale mogelijkheden in Llama 4 Scout

Llama 4 Scout gebruikt early fusion architectuur om tekst en afbeeldingen samen native te verwerken. Visueel begrip is in het model ingebouwd vanaf de basis in plaats van toegevoegd als aparte module, wat naadloze redenering over beide modaliteiten binnen hetzelfde enorme contextvenster mogelijk maakt.

69.4% op MMMU multimodale benchmark voor sterke visuele redenering
Early fusion architectuur verwerkt afbeeldingen en tekst in een uniforme stream
Analyseer screenshots, diagrammen, flowcharts en technische tekeningen naast code
Combineer visuele document analyse met het volledige 10M token contextvenster
Geen aparte vision pijplijn nodig, wat deployment complexiteit reduceert

Aan de slag

Probeer Llama 4 Scout nu

Begin direct te chatten of download weights voor self-hosted deployment.

Chat met Scout

Probeer Llama 4 Scout direct - geen setup vereist

Model card

Volledige technische specificaties en benchmarks

Documentatie

Integratie gidsen en best practices

Download & deploy

Self-hosted deployment

Download officiële model weights voor deployment op je infrastructuur.

Hugging Face

Officieel Llama 4 Scout model repository

Ollama

Draai lokaal met Ollama

GitHub

Broncode en voorbeelden

FAQ

Veelgestelde vragen over Llama 4 Scout

Antwoorden op de meest voorkomende vragen die ontwikkelaars en onderzoekers stellen over het draaien, deployen en het meeste halen uit Llama 4 Scout.

Hoeveel VRAM heeft Llama 4 Scout nodig om lokaal te draaien?

Het draaien van de volledige precisie versie van Llama 4 Scout vereist ongeveer 220 GB VRAM, wat typisch een multi-GPU setup betekent met minstens twee A100 80 GB kaarten. Gekwantiseerde versies kunnen dit aanzienlijk reduceren. INT8 kwantisatie brengt de vereiste terug naar ongeveer 110 GB, en INT4 kwantisatie kan op ongeveer 55 GB passen, wat het toegankelijk maakt op high-end consument setups met meerdere GPU's.

Kan Llama 4 Scout een volledige GitHub repository verwerken?

Ja. Het 10 miljoen token contextvenster in Llama 4 Scout kan ongeveer 50.000 regels code over honderden bestanden tegelijk bevatten. Dit betekent dat de meeste middelgrote repositories volledig in een enkele contextaanroep passen, wat cross-file analyse, dependency tracking en architecturale review mogelijk maakt zonder chunking of context tussen bestanden te verliezen.

Wat is het verschil tussen Llama 4 Scout en Maverick?

Llama 4 Scout is geoptimaliseerd voor lange-context taken met zijn 10M token venster en 16 experts (109B totale parameters). Maverick prioriteert ruwe kwaliteit met 128 experts en 400B totale parameters maar heeft een 1M token contextvenster. Beide activeren 17B parameters per token. Kies Scout wanneer je enorme context nodig hebt, kies Maverick wanneer je maximale benchmark prestatie nodig hebt.

Is Llama 4 Scout gratis commercieel te gebruiken?

Ja. Llama 4 Scout is uitgebracht onder de Llama 3.1 compatibele licentie, die commercieel gebruik toestaat. Je kunt het in productie toepassingen deployen, producten erop bouwen en het fine-tunen voor je specifieke behoeften. De licentie bevat wel bepaalde gebruik drempels voor zeer grootschalige deployments, dus bekijk de volledige licentie voorwaarden als je toepassing honderden miljoenen gebruikers bedient.

Hoe werkt het 10 miljoen token contextvenster in Llama 4 Scout?

Het 10M token contextvenster stelt Llama 4 Scout in staat om tot 10 miljoen tokens in een enkele inference aanroep te accepteren en verwerken. Dit wordt bereikt door architecturale innovaties in positionele encoding en attention mechanismen die coherentie over extreem lange sequenties behouden. Needle-in-a-haystack tests tonen 95% retrieval nauwkeurigheid tot 8M tokens en 89% op de volledige 10M limiet.

Welke programmeertalen ondersteunt Llama 4 Scout voor code analyse?

Llama 4 Scout ondersteunt alle belangrijke programmeertalen inclusief Python, JavaScript, TypeScript, Java, C++, Go, Rust en vele meer. De trainingsdata dekt een breed bereik aan open source repositories. Het echte voordeel is het contextvenster: je kunt volledige multi-taal projecten laden en cross-language interacties, API grenzen en full-stack architecturen in één aanroep analyseren.

Llama 4 Familie