Llama 4 Scout
10 millions de tokens de contexte - la plus longue fenêtre de tous les modèles ouverts
Llama 4 Scout redéfinit ce qu'un seul appel de modèle peut accomplir. Construit sur l'architecture mixture of experts de Meta avec 109B de paramètres au total et seulement 17B actifs par token, il offre la plus longue fenêtre de contexte de tous les modèles ouverts avec 10 millions de tokens. Soumettez-lui une base de code entière couvrant des centaines de fichiers, une bibliothèque de recherche complète avec des dizaines d'articles, ou des heures de transcriptions de réunions. Là où d'autres modèles vous obligent à découper et résumer, Llama 4 Scout traite tout en une seule fois, préservant les relations inter-documents et les connexions subtiles que le découpage détruirait.
Variantes du modèle
Modèles instruction-tuned et de base
Choisissez entre la variante instruction-tuned optimisée pour le chat et les tâches long contexte, ou le modèle de base pour le fine-tuning et les applications personnalisées.
Architecture Mixture-of-Experts
109B de paramètres au total, 17B actifs par token
Llama 4 Scout utilise une architecture MoE sparse avec 16 experts, activant 17B de paramètres par passe forward. Sa caractéristique phare est sa fenêtre de contexte de 10 millions de tokens - la plus longue de tous les modèles ouverts.
Idéal pour les tâches nécessitant le traitement de volumes massifs de texte : bases de code entières, analyse multi-documents, longs articles de recherche et historiques de conversation étendus.
Instruction-tuned
Scout Instruct
Optimisé pour l'IA conversationnelle et les tâches long contexte
Fine-tuné pour le suivi d'instructions, le dialogue multi-tours et le traitement d'entrées très longues
Pré-entraîné
Scout Base
Modèle MoE de base pour le fine-tuning et les applications spécialisées
Pré-entraîné sur des données multimodales diversifiées avec routage à 16 experts
Capacités
Ce qui fait de Llama 4 Scout une référence en long contexte
Llama 4 Scout combine une fenêtre de contexte de 10M de tokens sans précédent avec l'efficacité MoE, le support multimodal natif et de solides capacités de raisonnement. Chaque fonctionnalité est conçue pour gérer des tâches exigeant le traitement de grands volumes d'informations en une seule passe.
Fenêtre de contexte de 10M de tokens
La plus longue fenêtre de contexte de tous les modèles ouverts. Traitez des bases de code entières couvrant 50 000 lignes sur des centaines de fichiers, des bibliothèques de recherche multi-documents, ou des heures de conversation en un seul appel. Les tests needle-in-a-haystack confirment une précision de récupération de 95 % jusqu'à 8 millions de tokens, avec 89 % de précision à la limite complète de 10 millions de tokens.
Efficacité MoE
N'active que 17B de paramètres par token à partir d'un pool de 109B répartis sur 16 experts. Cette stratégie de routage sparse offre de solides performances pour une fraction du coût de calcul des modèles denses avec des comptes de paramètres totaux similaires. Le résultat : un déploiement pratique sur moins de GPU que ce à quoi on pourrait s'attendre pour un modèle de cette capacité.
Analyse de code à grande échelle
Chargez des dépôts entiers dans le contexte pour l'analyse inter-fichiers, le suivi des dépendances et les tâches de refactoring à grande échelle. Llama 4 Scout peut tracer les appels de fonctions entre modules, identifier les imports inutilisés et suggérer des améliorations architecturales tout en ayant une vue complète de votre base de code.
Workflows agentiques
Le support natif de l'appel de fonctions et de l'utilisation d'outils permet des agents autonomes sans fine-tuning supplémentaire. Construisez des workflows qui enchaînent plusieurs outils, interrogent des bases de données, appellent des API et traitent les résultats en séquence. La fenêtre de contexte étendue permet aux agents de maintenir un état riche sur de nombreuses étapes d'interaction.
Support multilingue
Performances solides dans plusieurs langues avec compréhension du contexte culturel pour les applications internationales. Que vous analysiez des documents en anglais, chinois, espagnol ou d'autres langues supportées, Llama 4 Scout maintient une qualité constante et une compréhension nuancée au-delà des frontières linguistiques.
Multimodal natif
Traitement conjoint du texte et des images grâce à l'architecture early fusion. Analysez captures d'écran, diagrammes, graphiques et documents en parallèle du texte sans avoir besoin de pipelines de vision séparés. La capacité multimodale est intégrée au modèle dès sa conception, permettant un raisonnement fluide entre informations visuelles et textuelles.
Points clés
Pourquoi la fenêtre de contexte de Llama 4 Scout compte
Une fenêtre de contexte de 10M de tokens change ce qui est possible en un seul appel de modèle.
Ce que vous pouvez traiter en 10M de tokens
- Une base de code de taille moyenne entière (50K+ lignes sur des centaines de fichiers)
- Plusieurs articles de recherche ou un livre entier
- Des heures de transcriptions de réunions ou d'historique de conversation
- Des ensembles complets de documentation pour des systèmes complexes
- 95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack
Spécifications techniques
- 109B de paramètres au total, 17B actifs par token
- 16 experts dans l'architecture MoE
- Fenêtre de contexte de 10M de tokens
- Multimodal natif (texte + image)
- Licence compatible Llama 3.1
Performances
Spécialiste du long contexte avec un raisonnement compétitif
Llama 4 Scout offre de solides performances sur les benchmarks standards tout en proposant une fenêtre de contexte de 10M de tokens inégalée pour les tâches sur documents longs.
En utilisation réelle, Llama 4 Scout excelle lorsque les tâches exigent le traitement de grands volumes d'informations. Les développeurs rapportent avoir chargé avec succès des dépôts GitHub entiers pour une revue de code complète, les chercheurs soumettent des collections complètes d'articles pour la synthèse de littérature, et les équipes juridiques traitent des bibliothèques entières de contrats pour la comparaison de clauses. Bien que Maverick soit en tête sur les scores bruts des benchmarks, la fenêtre de contexte de 10M de Scout en fait le choix évident pour les workflows où voir l'ensemble est plus précieux que des gains marginaux de qualité sur des prompts courts.
Fenêtre de contexte de 10M de tokens - la plus longue de tous les modèles ouverts
95%+ de précision de récupération jusqu'à 8M de tokens
17B de paramètres actifs sur 109B au total (16 experts)
Compétitif avec des modèles ayant 2 à 3 fois plus de paramètres actifs
Support multimodal natif pour les entrées texte et image
Comparaison des benchmarks
Scout vs Maverick et la famille Llama 4
Scout échange une partie des performances brutes sur les benchmarks contre son avantage massif en fenêtre de contexte.
| Benchmark | Llama 4 Scout 16 experts En vedette | Llama 4 Maverick 128 experts | Llama 3.1 70B Dense |
|---|---|---|---|
MMLU Pro Connaissances et raisonnement | 74.3% | 80.5% | 66.4% |
GPQA Diamond Connaissances scientifiques | 57.2% | 69.8% | 46.7% |
LiveCodeBench v5 Programmation | 32.8% | 43.4% | 28.5% |
MMMU Multimodal | 69.4% | 73.4% | - |
Context Window Tokens maximum | 10M | 1M | 128K |
Total Parameters Taille du modèle | 109B | 400B | 70B |
Active Parameters Par token | 17B | 17B | 70B |
Données issues de la fiche officielle de Meta et d'évaluations indépendantes.
Long contexte
10M de tokens : traitez des bases de code entières avec Llama 4 Scout
La fenêtre de contexte de 10M de tokens de Llama 4 Scout est la plus longue de tous les modèles ouverts. Chargez des dépôts entiers, des ensembles de recherche multi-documents ou des heures de transcriptions dans un seul contexte pour une analyse complète sans perte d'information due au découpage ou à la synthèse.
- 95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack
- 89 % de précision à la limite complète de 10M de tokens pour une récupération longue distance fiable
- Traitez 50K+ lignes de code sur des centaines de fichiers simultanément
- Analysez des collections complètes d'articles de recherche sans découper les documents
- Maintenez un historique de conversation complet sur des sessions multi-tours étendues
Architecture MoE
Comment Llama 4 Scout offre une capacité de 109B au coût de 17B
L'architecture MoE à 16 experts de Llama 4 Scout n'active que 17B de paramètres par token tout en maintenant la capacité de représentation d'un modèle bien plus grand. Cela rend le déploiement pratique sur un seul nœud tout en offrant de solides performances en raisonnement, programmation et analyse.
- 16 experts avec 17B de paramètres actifs par passe forward pour une inférence efficace
- Même nombre de paramètres actifs que Maverick avec une empreinte mémoire totale nettement inférieure
- Adapté aux scénarios de déploiement sur un seul nœud avec moins de GPU nécessaires
- Le routage sparse garantit que chaque token reçoit l'attention d'un expert spécialisé
- Coût opérationnel inférieur par rapport aux modèles denses avec des paramètres totaux similaires
Multimodal
Capacités multimodales de Llama 4 Scout
Llama 4 Scout utilise l'architecture early fusion pour traiter texte et images ensemble de manière native. La compréhension visuelle est intégrée au modèle dès sa conception plutôt qu'ajoutée comme module séparé, permettant un raisonnement fluide entre les deux modalités au sein de la même fenêtre de contexte massive.
- 69,4 % sur le benchmark multimodal MMMU pour un solide raisonnement visuel
- L'architecture early fusion traite images et texte dans un flux unifié
- Analysez captures d'écran, diagrammes, organigrammes et dessins techniques en parallèle du code
- Combinez l'analyse visuelle de documents avec la fenêtre de contexte complète de 10M de tokens
- Pas besoin de pipeline de vision séparé, ce qui réduit la complexité du déploiement
Commencer
Essayez Llama 4 Scout maintenant
Commencez à chatter instantanément ou téléchargez les poids pour un déploiement auto-hébergé.
Téléchargement et déploiement
Déploiement auto-hébergé
Téléchargez les poids officiels du modèle pour un déploiement sur votre infrastructure.
FAQ
Questions fréquentes sur Llama 4 Scout
Réponses aux questions les plus courantes que les développeurs et chercheurs posent sur l'exécution, le déploiement et l'utilisation optimale de Llama 4 Scout.
La version pleine précision de Llama 4 Scout nécessite environ 220 Go de VRAM, ce qui implique généralement une configuration multi-GPU avec au moins deux cartes A100 80 Go. Les versions quantifiées réduisent considérablement ce besoin. La quantification INT8 ramène l'exigence à environ 110 Go, et la quantification INT4 peut tenir sur environ 55 Go, rendant le modèle accessible sur des configurations grand public haut de gamme avec plusieurs GPU.
Oui. La fenêtre de contexte de 10 millions de tokens de Llama 4 Scout peut contenir environ 50 000 lignes de code sur des centaines de fichiers simultanément. Cela signifie que la plupart des dépôts de taille moyenne tiennent entièrement dans un seul appel de contexte, permettant l'analyse inter-fichiers, le suivi des dépendances et la revue architecturale sans découpage ni perte de contexte entre les fichiers.
Llama 4 Scout est optimisé pour les tâches long contexte avec sa fenêtre de 10M de tokens et 16 experts (109B de paramètres au total). Maverick privilégie la qualité brute avec 128 experts et 400B de paramètres au total mais une fenêtre de contexte de 1M de tokens. Les deux activent 17B de paramètres par token. Choisissez Scout quand vous avez besoin d'un contexte massif, choisissez Maverick quand vous visez les meilleures performances sur les benchmarks.
Oui. Llama 4 Scout est publié sous la licence compatible Llama 3.1, qui autorise l'usage commercial. Vous pouvez le déployer en production, construire des produits dessus et le fine-tuner pour vos besoins spécifiques. La licence inclut certains seuils d'utilisation pour les déploiements à très grande échelle, consultez donc les termes complets si votre application dessert des centaines de millions d'utilisateurs.
La fenêtre de contexte de 10M de tokens permet à Llama 4 Scout d'accepter et de traiter jusqu'à 10 millions de tokens en un seul appel d'inférence. Cela est rendu possible par des innovations architecturales dans l'encodage positionnel et les mécanismes d'attention qui maintiennent la cohérence sur des séquences extrêmement longues. Les tests needle-in-a-haystack montrent une précision de récupération de 95 % jusqu'à 8M de tokens et 89 % à la limite complète de 10M.
Llama 4 Scout supporte tous les principaux langages de programmation, notamment Python, JavaScript, TypeScript, Java, C++, Go, Rust et bien d'autres. Ses données d'entraînement couvrent un large éventail de dépôts open source. Le véritable avantage réside dans la fenêtre de contexte : vous pouvez charger des projets multi-langages entiers et analyser les interactions inter-langages, les frontières d'API et les architectures full-stack en un seul appel.
Famille Llama 4
Explorez toute la gamme Llama 4
Scout fait partie de la famille Llama 4 de Meta. Comparez-le avec Maverick et voyez comment il se positionne face aux autres modèles ouverts.
Commencer
Prêt à essayer Llama 4 Scout ?
Commencez à chatter gratuitement dès maintenant, ou téléchargez le modèle pour un déploiement auto-hébergé. La fenêtre de contexte de 10M de tokens vous attend.