Llama 4 Scout

10 millions de tokens de contexte - la plus grande fenêtre de tous les modèles ouverts

Llama 4 Scout est le spécialiste du long contexte chez Meta. Avec 109B de paramètres au total, 17B actifs par token répartis sur 16 experts et une fenêtre de contexte de 10M de tokens, il peut traiter des bases de code entières, des bibliothèques de recherche multi-documents et des heures d'historique de conversation en un seul appel.

Variantes du modèle

Modèles instruction-tuned et de base

Choisissez entre la variante instruction-tuned optimisée pour le chat et les tâches long contexte, ou le modèle de base pour le fine-tuning et les applications personnalisées.

Architecture Mixture-of-Experts

109B de paramètres au total, 17B actifs par token

Llama 4 Scout utilise une architecture MoE sparse avec 16 experts, activant 17B de paramètres par passe forward. Sa caractéristique phare est sa fenêtre de contexte de 10 millions de tokens - la plus longue de tous les modèles ouverts disponibles.

Idéal pour les tâches nécessitant le traitement de volumes massifs de texte : bases de code entières, analyse multi-documents, longs articles de recherche et historiques de conversation étendus.

Instruction-tuned

Scout Instruct

Optimisé pour l'IA conversationnelle et les tâches long contexte

Fine-tuné pour le suivi d'instructions, le dialogue multi-tours et le traitement d'entrées très longues

Disponible maintenant

Pré-entraîné

Scout Base

Modèle MoE de base pour le fine-tuning et les applications spécialisées

Pré-entraîné sur des données multimodales diversifiées avec routage à 16 experts

Disponible maintenant

Capacités

Conçu pour un contexte massif et la compréhension multimodale

Llama 4 Scout combine une fenêtre de contexte de 10M de tokens sans précédent avec l'efficacité MoE, le support multimodal natif et de solides capacités de raisonnement.

Fenêtre de contexte de 10M de tokens

La plus grande fenêtre de contexte de tous les modèles ouverts disponibles. Traitez des bases de code entières, des bibliothèques de recherche multi-documents ou des heures de conversation en un seul appel.

Efficacité MoE

N'active que 17B de paramètres par token sur un pool de 109B répartis sur 16 experts. Des performances élevées pour une fraction du coût de calcul des modèles denses.

Analyse de code à grande échelle

Chargez des dépôts entiers dans le contexte pour l'analyse inter-fichiers, le suivi des dépendances et les tâches de refactoring à grande échelle.

Workflows agentiques

Le support natif de l'appel de fonctions et de l'utilisation d'outils permet des agents autonomes. Construisez des workflows chaînant plusieurs outils sans fine-tuning.

Support multilingue

Performances solides dans de nombreuses langues avec compréhension du contexte culturel pour les applications internationales.

Multimodal natif

Traitez texte et images ensemble grâce à l'architecture early fusion. Analysez captures d'écran, diagrammes et documents en parallèle du texte.

Points clés

Pourquoi la fenêtre de contexte de Scout change la donne

Une fenêtre de contexte de 10M de tokens transforme ce qui est possible en un seul appel de modèle.

Ce que vous pouvez traiter avec 10M de tokens

  • Une base de code complète de taille moyenne (50K+ lignes sur des centaines de fichiers)
  • Plusieurs articles de recherche ou un livre entier
  • Des heures de transcriptions de réunions ou d'historique de conversation
  • Des ensembles complets de documentation pour des systèmes complexes
  • 95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack

Spécifications techniques

  • 109B de paramètres au total, 17B actifs par token
  • 16 experts dans l'architecture MoE
  • Fenêtre de contexte de 10M de tokens
  • Multimodal natif (texte + image)
  • Licence compatible Llama 3.1

Performance

Spécialiste du long contexte avec un raisonnement compétitif

Llama 4 Scout offre de solides performances sur les benchmarks standards tout en proposant une fenêtre de contexte de 10M de tokens inégalée pour les tâches sur documents longs.

Scout est optimisé pour les tâches nécessitant le traitement de grandes quantités de contexte. Bien que Maverick domine sur les scores bruts des benchmarks, la fenêtre de contexte de 10M de Scout en fait le choix évident pour les workflows sur documents longs.

Graphique comparatif des performances de Llama 4 Scout

Fenêtre de contexte de 10M de tokens - la plus longue de tous les modèles ouverts

95%+ de précision de récupération jusqu'à 8M de tokens

17B de paramètres actifs sur 109B au total (16 experts)

Compétitif avec des modèles ayant 2 à 3 fois plus de paramètres actifs

Support multimodal natif pour les entrées texte et image

Comparaison des benchmarks

Scout vs Maverick et la famille Llama 4

Scout échange une partie de ses performances brutes sur les benchmarks contre l'avantage de sa fenêtre de contexte massive.

Benchmark
Llama 4 Scout
16 experts
En vedette
Llama 4 Maverick
128 experts
Llama 3.1 70B
Dense
MMLU Pro
Connaissances et raisonnement
74.3%80.5%66.4%
GPQA Diamond
Connaissances scientifiques
57.2%69.8%46.7%
LiveCodeBench v5
Programmation
32.8%43.4%28.5%
MMMU
Multimodal
69.4%73.4%-
Context Window
Tokens max
10M1M128K
Total Parameters
Taille du modèle
109B400B70B
Active Parameters
Par token
17B17B70B

Données issues de la fiche officielle de Meta et d'évaluations indépendantes.

Long contexte

10M de tokens : traitez des bases de code entières en un seul appel

La fenêtre de contexte de 10M de tokens de Scout est la plus longue de tous les modèles ouverts disponibles. Chargez des dépôts entiers, des ensembles de recherche multi-documents ou des heures de transcriptions dans un seul contexte pour une analyse complète.

  • 95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack
  • 89% de précision à la limite complète de 10M de tokens
  • Traitez 50K+ lignes de code sur des centaines de fichiers simultanément
Llama 4 Scout MoE architecture

Architecture MoE

109B de capacité au coût d'inférence de 17B

L'architecture MoE à 16 experts de Scout n'active que 17B de paramètres par token tout en conservant la capacité de représentation d'un modèle bien plus grand. Cela le rend pratique à déployer sur un seul nœud tout en offrant de solides performances.

  • 16 experts avec 17B de paramètres actifs par passe forward
  • Même nombre de paramètres actifs que Maverick avec moins de mémoire totale
  • Adapté aux scénarios de déploiement sur un seul nœud
Llama 4 Scout 10M context window

Commencer

Essayez Llama 4 Scout maintenant

Commencez à discuter instantanément ou téléchargez les poids pour un déploiement auto-hébergé.

Télécharger et déployer

Déploiement auto-hébergé

Téléchargez les poids officiels du modèle pour un déploiement sur votre infrastructure.

Famille Llama 4

Explorez toute la gamme Llama 4

Scout fait partie de la famille Llama 4 de Meta. Comparez-le avec Maverick et voyez comment il se positionne face aux autres modèles ouverts.

Llama 4 Maverick

Modèle phare MoE 400B avec 128 experts

Comparer

Tous les modèles Llama 4

Vue d'ensemble complète de la famille

Voir tout

Llama 4 vs Kimi K2.6

Scout/Maverick vs le modèle 1T de Moonshot

Comparer

Llama 4 vs Qwen 3.6

Meta vs le dernier modèle d'Alibaba

Comparer

Llama 4 vs DeepSeek V4

Duel d'architectures MoE

Comparer

Llama 4 vs MiniMax M2.7

Contexte vs efficacité des coûts

Comparer

Commencer

Prêt à essayer Llama 4 Scout ?

Commencez à discuter gratuitement et instantanément, ou téléchargez le modèle pour un déploiement auto-hébergé. La fenêtre de contexte de 10M de tokens vous attend.