Llama 4 Scout
10 millions de tokens de contexte - la plus grande fenêtre de tous les modèles ouverts
Llama 4 Scout est le spécialiste du long contexte chez Meta. Avec 109B de paramètres au total, 17B actifs par token répartis sur 16 experts et une fenêtre de contexte de 10M de tokens, il peut traiter des bases de code entières, des bibliothèques de recherche multi-documents et des heures d'historique de conversation en un seul appel.
Variantes du modèle
Modèles instruction-tuned et de base
Choisissez entre la variante instruction-tuned optimisée pour le chat et les tâches long contexte, ou le modèle de base pour le fine-tuning et les applications personnalisées.
Architecture Mixture-of-Experts
109B de paramètres au total, 17B actifs par token
Llama 4 Scout utilise une architecture MoE sparse avec 16 experts, activant 17B de paramètres par passe forward. Sa caractéristique phare est sa fenêtre de contexte de 10 millions de tokens - la plus longue de tous les modèles ouverts disponibles.
Idéal pour les tâches nécessitant le traitement de volumes massifs de texte : bases de code entières, analyse multi-documents, longs articles de recherche et historiques de conversation étendus.
Instruction-tuned
Scout Instruct
Optimisé pour l'IA conversationnelle et les tâches long contexte
Fine-tuné pour le suivi d'instructions, le dialogue multi-tours et le traitement d'entrées très longues
Pré-entraîné
Scout Base
Modèle MoE de base pour le fine-tuning et les applications spécialisées
Pré-entraîné sur des données multimodales diversifiées avec routage à 16 experts
Capacités
Conçu pour un contexte massif et la compréhension multimodale
Llama 4 Scout combine une fenêtre de contexte de 10M de tokens sans précédent avec l'efficacité MoE, le support multimodal natif et de solides capacités de raisonnement.
Fenêtre de contexte de 10M de tokens
La plus grande fenêtre de contexte de tous les modèles ouverts disponibles. Traitez des bases de code entières, des bibliothèques de recherche multi-documents ou des heures de conversation en un seul appel.
Efficacité MoE
N'active que 17B de paramètres par token sur un pool de 109B répartis sur 16 experts. Des performances élevées pour une fraction du coût de calcul des modèles denses.
Analyse de code à grande échelle
Chargez des dépôts entiers dans le contexte pour l'analyse inter-fichiers, le suivi des dépendances et les tâches de refactoring à grande échelle.
Workflows agentiques
Le support natif de l'appel de fonctions et de l'utilisation d'outils permet des agents autonomes. Construisez des workflows chaînant plusieurs outils sans fine-tuning.
Support multilingue
Performances solides dans de nombreuses langues avec compréhension du contexte culturel pour les applications internationales.
Multimodal natif
Traitez texte et images ensemble grâce à l'architecture early fusion. Analysez captures d'écran, diagrammes et documents en parallèle du texte.
Points clés
Pourquoi la fenêtre de contexte de Scout change la donne
Une fenêtre de contexte de 10M de tokens transforme ce qui est possible en un seul appel de modèle.
Ce que vous pouvez traiter avec 10M de tokens
- Une base de code complète de taille moyenne (50K+ lignes sur des centaines de fichiers)
- Plusieurs articles de recherche ou un livre entier
- Des heures de transcriptions de réunions ou d'historique de conversation
- Des ensembles complets de documentation pour des systèmes complexes
- 95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack
Spécifications techniques
- 109B de paramètres au total, 17B actifs par token
- 16 experts dans l'architecture MoE
- Fenêtre de contexte de 10M de tokens
- Multimodal natif (texte + image)
- Licence compatible Llama 3.1
Performance
Spécialiste du long contexte avec un raisonnement compétitif
Llama 4 Scout offre de solides performances sur les benchmarks standards tout en proposant une fenêtre de contexte de 10M de tokens inégalée pour les tâches sur documents longs.
Scout est optimisé pour les tâches nécessitant le traitement de grandes quantités de contexte. Bien que Maverick domine sur les scores bruts des benchmarks, la fenêtre de contexte de 10M de Scout en fait le choix évident pour les workflows sur documents longs.
Fenêtre de contexte de 10M de tokens - la plus longue de tous les modèles ouverts
95%+ de précision de récupération jusqu'à 8M de tokens
17B de paramètres actifs sur 109B au total (16 experts)
Compétitif avec des modèles ayant 2 à 3 fois plus de paramètres actifs
Support multimodal natif pour les entrées texte et image
Comparaison des benchmarks
Scout vs Maverick et la famille Llama 4
Scout échange une partie de ses performances brutes sur les benchmarks contre l'avantage de sa fenêtre de contexte massive.
| Benchmark | Llama 4 Scout 16 experts En vedette | Llama 4 Maverick 128 experts | Llama 3.1 70B Dense |
|---|---|---|---|
MMLU Pro Connaissances et raisonnement | 74.3% | 80.5% | 66.4% |
GPQA Diamond Connaissances scientifiques | 57.2% | 69.8% | 46.7% |
LiveCodeBench v5 Programmation | 32.8% | 43.4% | 28.5% |
MMMU Multimodal | 69.4% | 73.4% | - |
Context Window Tokens max | 10M | 1M | 128K |
Total Parameters Taille du modèle | 109B | 400B | 70B |
Active Parameters Par token | 17B | 17B | 70B |
Données issues de la fiche officielle de Meta et d'évaluations indépendantes.
Long contexte
10M de tokens : traitez des bases de code entières en un seul appel
La fenêtre de contexte de 10M de tokens de Scout est la plus longue de tous les modèles ouverts disponibles. Chargez des dépôts entiers, des ensembles de recherche multi-documents ou des heures de transcriptions dans un seul contexte pour une analyse complète.
- 95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack
- 89% de précision à la limite complète de 10M de tokens
- Traitez 50K+ lignes de code sur des centaines de fichiers simultanément
Architecture MoE
109B de capacité au coût d'inférence de 17B
L'architecture MoE à 16 experts de Scout n'active que 17B de paramètres par token tout en conservant la capacité de représentation d'un modèle bien plus grand. Cela le rend pratique à déployer sur un seul nœud tout en offrant de solides performances.
- 16 experts avec 17B de paramètres actifs par passe forward
- Même nombre de paramètres actifs que Maverick avec moins de mémoire totale
- Adapté aux scénarios de déploiement sur un seul nœud
Commencer
Essayez Llama 4 Scout maintenant
Commencez à discuter instantanément ou téléchargez les poids pour un déploiement auto-hébergé.
Télécharger et déployer
Déploiement auto-hébergé
Téléchargez les poids officiels du modèle pour un déploiement sur votre infrastructure.
Famille Llama 4
Explorez toute la gamme Llama 4
Scout fait partie de la famille Llama 4 de Meta. Comparez-le avec Maverick et voyez comment il se positionne face aux autres modèles ouverts.
Commencer
Prêt à essayer Llama 4 Scout ?
Commencez à discuter gratuitement et instantanément, ou téléchargez le modèle pour un déploiement auto-hébergé. La fenêtre de contexte de 10M de tokens vous attend.