Llama 4 Scout

10 millions de tokens de contexte - la plus longue fenêtre de tous les modèles ouverts

Llama 4 Scout redéfinit ce qu'un seul appel de modèle peut accomplir. Construit sur l'architecture mixture of experts de Meta avec 109B de paramètres au total et seulement 17B actifs par token, il offre la plus longue fenêtre de contexte de tous les modèles ouverts avec 10 millions de tokens. Soumettez-lui une base de code entière couvrant des centaines de fichiers, une bibliothèque de recherche complète avec des dizaines d'articles, ou des heures de transcriptions de réunions. Là où d'autres modèles vous obligent à découper et résumer, Llama 4 Scout traite tout en une seule fois, préservant les relations inter-documents et les connexions subtiles que le découpage détruirait.

Commencer le chat Voir les benchmarks

Variantes du modèle

Modèles instruction-tuned et de base

Choisissez entre la variante instruction-tuned optimisée pour le chat et les tâches long contexte, ou le modèle de base pour le fine-tuning et les applications personnalisées.

Architecture Mixture-of-Experts

109B de paramètres au total, 17B actifs par token

Llama 4 Scout utilise une architecture MoE sparse avec 16 experts, activant 17B de paramètres par passe forward. Sa caractéristique phare est sa fenêtre de contexte de 10 millions de tokens - la plus longue de tous les modèles ouverts.

Idéal pour les tâches nécessitant le traitement de volumes massifs de texte : bases de code entières, analyse multi-documents, longs articles de recherche et historiques de conversation étendus.

Commencer le chat Voir les capacités

Instruction-tuned

Scout Instruct

Optimisé pour l'IA conversationnelle et les tâches long contexte

Fine-tuné pour le suivi d'instructions, le dialogue multi-tours et le traitement d'entrées très longues

Disponible maintenant

Commencer le chat Télécharger les poids

Pré-entraîné

Scout Base

Modèle MoE de base pour le fine-tuning et les applications spécialisées

Pré-entraîné sur des données multimodales diversifiées avec routage à 16 experts

Disponible maintenant

Voir sur HuggingFace Documentation

Capacités

Ce qui fait de Llama 4 Scout une référence en long contexte

Llama 4 Scout combine une fenêtre de contexte de 10M de tokens sans précédent avec l'efficacité MoE, le support multimodal natif et de solides capacités de raisonnement. Chaque fonctionnalité est conçue pour gérer des tâches exigeant le traitement de grands volumes d'informations en une seule passe.

Fenêtre de contexte de 10M de tokens

La plus longue fenêtre de contexte de tous les modèles ouverts. Traitez des bases de code entières couvrant 50 000 lignes sur des centaines de fichiers, des bibliothèques de recherche multi-documents, ou des heures de conversation en un seul appel. Les tests needle-in-a-haystack confirment une précision de récupération de 95 % jusqu'à 8 millions de tokens, avec 89 % de précision à la limite complète de 10 millions de tokens.

Efficacité MoE

N'active que 17B de paramètres par token à partir d'un pool de 109B répartis sur 16 experts. Cette stratégie de routage sparse offre de solides performances pour une fraction du coût de calcul des modèles denses avec des comptes de paramètres totaux similaires. Le résultat : un déploiement pratique sur moins de GPU que ce à quoi on pourrait s'attendre pour un modèle de cette capacité.

Analyse de code à grande échelle

Chargez des dépôts entiers dans le contexte pour l'analyse inter-fichiers, le suivi des dépendances et les tâches de refactoring à grande échelle. Llama 4 Scout peut tracer les appels de fonctions entre modules, identifier les imports inutilisés et suggérer des améliorations architecturales tout en ayant une vue complète de votre base de code.

Workflows agentiques

Le support natif de l'appel de fonctions et de l'utilisation d'outils permet des agents autonomes sans fine-tuning supplémentaire. Construisez des workflows qui enchaînent plusieurs outils, interrogent des bases de données, appellent des API et traitent les résultats en séquence. La fenêtre de contexte étendue permet aux agents de maintenir un état riche sur de nombreuses étapes d'interaction.

Support multilingue

Performances solides dans plusieurs langues avec compréhension du contexte culturel pour les applications internationales. Que vous analysiez des documents en anglais, chinois, espagnol ou d'autres langues supportées, Llama 4 Scout maintient une qualité constante et une compréhension nuancée au-delà des frontières linguistiques.

Multimodal natif

Traitement conjoint du texte et des images grâce à l'architecture early fusion. Analysez captures d'écran, diagrammes, graphiques et documents en parallèle du texte sans avoir besoin de pipelines de vision séparés. La capacité multimodale est intégrée au modèle dès sa conception, permettant un raisonnement fluide entre informations visuelles et textuelles.

Points clés

Pourquoi la fenêtre de contexte de Llama 4 Scout compte

Une fenêtre de contexte de 10M de tokens change ce qui est possible en un seul appel de modèle.

Ce que vous pouvez traiter en 10M de tokens

Une base de code de taille moyenne entière (50K+ lignes sur des centaines de fichiers)
Plusieurs articles de recherche ou un livre entier
Des heures de transcriptions de réunions ou d'historique de conversation
Des ensembles complets de documentation pour des systèmes complexes
95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack

Spécifications techniques

109B de paramètres au total, 17B actifs par token
16 experts dans l'architecture MoE
Fenêtre de contexte de 10M de tokens
Multimodal natif (texte + image)
Licence compatible Llama 3.1

Chat gratuit Télécharger les poids

Performances

Spécialiste du long contexte avec un raisonnement compétitif

Llama 4 Scout offre de solides performances sur les benchmarks standards tout en proposant une fenêtre de contexte de 10M de tokens inégalée pour les tâches sur documents longs.

En utilisation réelle, Llama 4 Scout excelle lorsque les tâches exigent le traitement de grands volumes d'informations. Les développeurs rapportent avoir chargé avec succès des dépôts GitHub entiers pour une revue de code complète, les chercheurs soumettent des collections complètes d'articles pour la synthèse de littérature, et les équipes juridiques traitent des bibliothèques entières de contrats pour la comparaison de clauses. Bien que Maverick soit en tête sur les scores bruts des benchmarks, la fenêtre de contexte de 10M de Scout en fait le choix évident pour les workflows où voir l'ensemble est plus précieux que des gains marginaux de qualité sur des prompts courts.

Commencer le chat Voir la fiche modèle

Graphique de comparaison des performances de Llama 4 Scout

Fenêtre de contexte de 10M de tokens - la plus longue de tous les modèles ouverts

95%+ de précision de récupération jusqu'à 8M de tokens

17B de paramètres actifs sur 109B au total (16 experts)

Compétitif avec des modèles ayant 2 à 3 fois plus de paramètres actifs

Support multimodal natif pour les entrées texte et image

Comparaison des benchmarks

Scout vs Maverick et la famille Llama 4

Scout échange une partie des performances brutes sur les benchmarks contre son avantage massif en fenêtre de contexte.

Benchmark	Llama 4 Scout 16 experts En vedette	Llama 4 Maverick 128 experts	Llama 3.1 70B Dense
MMLU Pro Connaissances et raisonnement	74.3%	80.5%	66.4%
GPQA Diamond Connaissances scientifiques	57.2%	69.8%	46.7%
LiveCodeBench v5 Programmation	32.8%	43.4%	28.5%
MMMU Multimodal	69.4%	73.4%	-
Context Window Tokens maximum	10M	1M	128K
Total Parameters Taille du modèle	109B	400B	70B
Active Parameters Par token	17B	17B	70B

Données issues de la fiche officielle de Meta et d'évaluations indépendantes.

Long contexte

10M de tokens : traitez des bases de code entières avec Llama 4 Scout

La fenêtre de contexte de 10M de tokens de Llama 4 Scout est la plus longue de tous les modèles ouverts. Chargez des dépôts entiers, des ensembles de recherche multi-documents ou des heures de transcriptions dans un seul contexte pour une analyse complète sans perte d'information due au découpage ou à la synthèse.

95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack
89 % de précision à la limite complète de 10M de tokens pour une récupération longue distance fiable
Traitez 50K+ lignes de code sur des centaines de fichiers simultanément
Analysez des collections complètes d'articles de recherche sans découper les documents
Maintenez un historique de conversation complet sur des sessions multi-tours étendues

Essayer les tâches long contexte Voir les benchmarks

Architecture MoE

Comment Llama 4 Scout offre une capacité de 109B au coût de 17B

L'architecture MoE à 16 experts de Llama 4 Scout n'active que 17B de paramètres par token tout en maintenant la capacité de représentation d'un modèle bien plus grand. Cela rend le déploiement pratique sur un seul nœud tout en offrant de solides performances en raisonnement, programmation et analyse.

16 experts avec 17B de paramètres actifs par passe forward pour une inférence efficace
Même nombre de paramètres actifs que Maverick avec une empreinte mémoire totale nettement inférieure
Adapté aux scénarios de déploiement sur un seul nœud avec moins de GPU nécessaires
Le routage sparse garantit que chaque token reçoit l'attention d'un expert spécialisé
Coût opérationnel inférieur par rapport aux modèles denses avec des paramètres totaux similaires

Commencer le chat Comparer avec Maverick

Multimodal

Capacités multimodales de Llama 4 Scout

Llama 4 Scout utilise l'architecture early fusion pour traiter texte et images ensemble de manière native. La compréhension visuelle est intégrée au modèle dès sa conception plutôt qu'ajoutée comme module séparé, permettant un raisonnement fluide entre les deux modalités au sein de la même fenêtre de contexte massive.

69,4 % sur le benchmark multimodal MMMU pour un solide raisonnement visuel
L'architecture early fusion traite images et texte dans un flux unifié
Analysez captures d'écran, diagrammes, organigrammes et dessins techniques en parallèle du code
Combinez l'analyse visuelle de documents avec la fenêtre de contexte complète de 10M de tokens
Pas besoin de pipeline de vision séparé, ce qui réduit la complexité du déploiement

Commencer

Essayez Llama 4 Scout maintenant

Commencez à chatter instantanément ou téléchargez les poids pour un déploiement auto-hébergé.

Chatter avec Scout

Essayez Llama 4 Scout instantanément - aucune configuration requise

Fiche modèle

Spécifications techniques complètes et benchmarks

Documentation

Guides d'intégration et bonnes pratiques

Téléchargement et déploiement

Déploiement auto-hébergé

Téléchargez les poids officiels du modèle pour un déploiement sur votre infrastructure.

Hugging Face

Dépôt officiel du modèle Llama 4 Scout

Ollama

Exécutez localement avec Ollama

GitHub

Code source et exemples

FAQ

Questions fréquentes sur Llama 4 Scout

Réponses aux questions les plus courantes que les développeurs et chercheurs posent sur l'exécution, le déploiement et l'utilisation optimale de Llama 4 Scout.

De combien de VRAM Llama 4 Scout a-t-il besoin pour tourner en local ?

La version pleine précision de Llama 4 Scout nécessite environ 220 Go de VRAM, ce qui implique généralement une configuration multi-GPU avec au moins deux cartes A100 80 Go. Les versions quantifiées réduisent considérablement ce besoin. La quantification INT8 ramène l'exigence à environ 110 Go, et la quantification INT4 peut tenir sur environ 55 Go, rendant le modèle accessible sur des configurations grand public haut de gamme avec plusieurs GPU.

Llama 4 Scout peut-il traiter un dépôt GitHub entier ?

Oui. La fenêtre de contexte de 10 millions de tokens de Llama 4 Scout peut contenir environ 50 000 lignes de code sur des centaines de fichiers simultanément. Cela signifie que la plupart des dépôts de taille moyenne tiennent entièrement dans un seul appel de contexte, permettant l'analyse inter-fichiers, le suivi des dépendances et la revue architecturale sans découpage ni perte de contexte entre les fichiers.

Quelle est la différence entre Llama 4 Scout et Maverick ?

Llama 4 Scout est optimisé pour les tâches long contexte avec sa fenêtre de 10M de tokens et 16 experts (109B de paramètres au total). Maverick privilégie la qualité brute avec 128 experts et 400B de paramètres au total mais une fenêtre de contexte de 1M de tokens. Les deux activent 17B de paramètres par token. Choisissez Scout quand vous avez besoin d'un contexte massif, choisissez Maverick quand vous visez les meilleures performances sur les benchmarks.

Llama 4 Scout est-il gratuit pour un usage commercial ?

Oui. Llama 4 Scout est publié sous la licence compatible Llama 3.1, qui autorise l'usage commercial. Vous pouvez le déployer en production, construire des produits dessus et le fine-tuner pour vos besoins spécifiques. La licence inclut certains seuils d'utilisation pour les déploiements à très grande échelle, consultez donc les termes complets si votre application dessert des centaines de millions d'utilisateurs.

Comment fonctionne la fenêtre de contexte de 10 millions de tokens de Llama 4 Scout ?

La fenêtre de contexte de 10M de tokens permet à Llama 4 Scout d'accepter et de traiter jusqu'à 10 millions de tokens en un seul appel d'inférence. Cela est rendu possible par des innovations architecturales dans l'encodage positionnel et les mécanismes d'attention qui maintiennent la cohérence sur des séquences extrêmement longues. Les tests needle-in-a-haystack montrent une précision de récupération de 95 % jusqu'à 8M de tokens et 89 % à la limite complète de 10M.

Quels langages de programmation Llama 4 Scout supporte-t-il pour l'analyse de code ?

Llama 4 Scout supporte tous les principaux langages de programmation, notamment Python, JavaScript, TypeScript, Java, C++, Go, Rust et bien d'autres. Ses données d'entraînement couvrent un large éventail de dépôts open source. Le véritable avantage réside dans la fenêtre de contexte : vous pouvez charger des projets multi-langages entiers et analyser les interactions inter-langages, les frontières d'API et les architectures full-stack en un seul appel.

Famille Llama 4

Explorez toute la gamme Llama 4

Scout fait partie de la famille Llama 4 de Meta. Comparez-le avec Maverick et voyez comment il se positionne face aux autres modèles ouverts.

Page officielle Llama GitHub

Llama 4 Maverick

Flagship MoE 400B avec 128 experts

Comparer

All Llama 4 Models

Vue d'ensemble complète de la famille

Voir tout

Llama 4 vs Kimi K2.6

Scout/Maverick vs le modèle 1T de Moonshot

Comparer

Llama 4 vs Qwen 3.6

Meta vs le dernier modèle d'Alibaba

Comparer

Llama 4 vs DeepSeek V4

Duel d'architectures MoE

Comparer

Llama 4 vs MiniMax M2.7

Contexte vs efficacité des coûts

Comparer

Commencer

Prêt à essayer Llama 4 Scout ?

Commencez à chatter gratuitement dès maintenant, ou téléchargez le modèle pour un déploiement auto-hébergé. La fenêtre de contexte de 10M de tokens vous attend.

Chat gratuit Télécharger les poids