Llama 4 Models
Deux modèles, une famille - du long contexte à la qualité frontier
Les modèles Llama 4 représentent la publication open weight la plus ambitieuse de Meta à ce jour. Cette famille propose deux architectures mixture of experts conçues pour des priorités différentes : Scout gère un contexte massif avec une fenêtre de 10 millions de tokens et 16 experts, tandis que Maverick offre une qualité de niveau frontier grâce à 128 experts et 400B de paramètres au total. Les deux partagent 17B de paramètres actifs par token et un support multimodal natif, vous donnant la flexibilité de choisir le bon équilibre entre longueur de contexte et qualité de sortie pour votre workflow spécifique.
Tous les modèles
Choisissez la bonne option parmi les modèles Llama 4
Scout et Maverick sont optimisés pour des scénarios différents. Comprendre leurs forces vous aide à choisir la variante qui correspond à votre charge de travail, que ce soit pour traiter des bases de code entières ou générer du raisonnement et du code de la plus haute qualité.
Llama 4 Scout
Fenêtre de contexte de 10M - le spécialiste du long contexte
109B de paramètres au total répartis sur 16 experts avec 17B actifs par token. Sa caractéristique phare est sa fenêtre de contexte de 10 millions de tokens, la plus longue de tous les modèles ouverts. Scout excelle lorsque votre tâche nécessite l'ingestion de grands volumes d'informations en une seule fois, des dépôts entiers aux collections de recherche multi-documents. Les tests needle-in-a-haystack confirment une précision de récupération de 95 % jusqu'à 8 millions de tokens.
Choisissez Scout quand vous devez traiter des bases de code entières, des ensembles de recherche multi-documents ou de très longs historiques de conversation en un seul appel. C'est la meilleure option quand la longueur du contexte compte plus que les différences marginales de qualité.
Llama 4 Maverick
128 experts, 400B de paramètres - le flagship qualité
400B de paramètres au total répartis sur 128 experts avec 17B actifs par token. Maverick surpasse GPT-4o sur les benchmarks clés, notamment MMLU Pro, GPQA Diamond et LiveCodeBench. L'architecture à 128 experts offre une spécialisation profonde dans tous les domaines, en faisant le modèle open weight le plus performant pour le raisonnement, la programmation et les tâches multimodales. Il propose une fenêtre de contexte de 1M de tokens pour la plupart des besoins en production.
Choisissez Maverick quand vous avez besoin d'une qualité maximale pour le raisonnement, la programmation, l'analyse multimodale et l'accomplissement de tâches complexes. C'est le modèle de chat par défaut sur ce site, et ce n'est pas un hasard.
Long contexte
Llama 4 Scout
109B au total, 17B actifs, 16 experts. Fenêtre de contexte de 10M de tokens.
Idéal pour : bases de code entières, analyse multi-documents, longs articles de recherche, conversations étendues.
Flagship
Llama 4 Maverick
400B au total, 17B actifs, 128 experts. Surpasse GPT-4o sur les benchmarks.
Idéal pour : raisonnement complexe, génération de code, tâches multimodales, synthèse de recherche.
Capacités partagées
Ce que tous les modèles Llama 4 peuvent faire
Scout et Maverick partagent un ensemble commun de capacités construites sur l'architecture mixture of experts de Meta. Ces fondations communes signifient que vous pouvez passer d'une variante à l'autre sans modifier votre code d'intégration.
Multimodal natif
Les deux modèles Llama 4 traitent texte et images de manière native avec l'architecture early fusion. La compréhension visuelle est intégrée dès la conception, pas ajoutée comme encodeur séparé. Cela signifie que vous pouvez envoyer du contenu mixte, y compris captures d'écran, diagrammes et documents en parallèle du texte, et obtenir un raisonnement cohérent entre les deux modalités.
Efficacité MoE
Les deux modèles Llama 4 n'activent que 17B de paramètres par token malgré leurs grands comptes de paramètres totaux. Scout utilise 16 experts avec 109B au total, Maverick utilise 128 experts avec 400B au total. Cette stratégie de routage sparse offre de solides performances pour une fraction du coût de calcul des architectures denses équivalentes.
Appel de fonctions
L'appel de fonctions intégré aux deux modèles Llama 4 permet des workflows agentiques sans fine-tuning supplémentaire. Définissez vos outils, et le modèle décidera quand et comment les appeler. Cela facilite la construction d'agents autonomes qui interrogent des bases de données, appellent des API, exécutent du code et enchaînent des opérations.
Contexte étendu
Scout offre une fenêtre de contexte de 10M de tokens pour les tâches extrêmes sur documents longs, tandis que Maverick fournit 1M de tokens pour la plupart des scénarios de production. Les deux dépassent largement la limite de 128K des modèles de la génération précédente, vous donnant la possibilité d'inclure plus de contexte, plus d'exemples et plus d'historique dans chaque requête.
Multilingue
Un solide support multilingue dans les deux modèles Llama 4 permet des applications internationales. Que vos utilisateurs communiquent en anglais, chinois, espagnol, français ou d'autres langues supportées, les deux variantes maintiennent une qualité constante avec des réponses culturellement adaptées.
Open weight
Les deux modèles Llama 4 sont entièrement open weight sous la licence compatible Llama 3.1. Déployez où vous voulez, modifiez librement et fine-tunez pour vos besoins spécifiques. Cette ouverture signifie pas de dépendance fournisseur, une transparence totale sur le comportement du modèle et la possibilité de tout exécuter sur votre propre infrastructure.
Guide de sélection rapide
Quel modèle Llama 4 devriez-vous choisir ?
Associez votre cas d'usage principal à la bonne variante.
Choisissez Scout quand
- Vous devez traiter de très longs documents (10M de tokens)
- Analyse de base de code entière sur des centaines de fichiers
- Recherche et synthèse multi-documents
- Historiques de conversation étendus
- Besoins en mémoire réduits (109B vs 400B au total)
Choisissez Maverick quand
- La qualité maximale est la priorité
- Raisonnement complexe et tâches scientifiques
- Génération de code et débogage
- Analyse multimodale (captures d'écran, diagrammes)
- Tâches où les performances sur les benchmarks comptent le plus
Performances
Comparaison complète des benchmarks des modèles Llama 4
Scout optimise la longueur de contexte, Maverick la qualité brute. Les deux offrent de solides performances par rapport à leurs objectifs de conception.
Le choix entre les modèles Llama 4 se résume à votre besoin principal. Si votre workflow implique le traitement de grands volumes de texte, de code ou de documents en un seul appel, la fenêtre de contexte de 10M de tokens de Scout est inégalée. Si vous avez besoin de la plus haute qualité possible pour le raisonnement, la programmation ou les tâches multimodales, l'architecture à 128 experts de Maverick délivre des résultats de niveau frontier qui rivalisent avec les meilleures offres propriétaires. De nombreuses équipes utilisent les deux : Maverick pour les tâches critiques en qualité et Scout pour l'analyse à grande échelle.
Maverick : 80,5 % MMLU Pro, 73,4 % MMMU, surpasse GPT-4o en programmation
Scout : contexte de 10M de tokens, 95%+ de récupération à 8M de tokens
Les deux : 17B de paramètres actifs, multimodal natif, appel de fonctions
Les deux : open weight sous licence compatible Llama 3.1
Comparaison complète
Scout vs Maverick côte à côte
Résultats complets des benchmarks en raisonnement, programmation, multimodal et métriques de déploiement.
| Benchmark | Maverick 128 experts Flagship | Scout 16 experts Long contexte |
|---|---|---|
MMLU Pro Connaissances et raisonnement | 80.5% | 74.3% |
GPQA Diamond Connaissances scientifiques | 69.8% | 57.2% |
LiveCodeBench v5 Programmation | 43.4% | 32.8% |
MMMU Multimodal | 73.4% | 69.4% |
Context Window Tokens maximum | 1M | 10M |
Total Parameters Taille du modèle | 400B | 109B |
Active Parameters Par token | 17B | 17B |
Number of Experts Routage MoE | 128 | 16 |
Données issues de la fiche officielle de Meta et d'évaluations indépendantes.
Scout
Llama 4 Scout : quand la longueur de contexte est primordiale
La fenêtre de contexte de 10M de tokens de Scout est inégalée parmi les modèles Llama 4 et dans tout le paysage open weight. Il peut traiter des bases de code entières, des ensembles de recherche multi-documents et des heures de transcriptions en un seul appel. Si votre tâche implique de très longues entrées, Scout est le choix évident.
- Contexte de 10M de tokens, le plus long de tous les modèles ouverts disponibles aujourd'hui
- 95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack
- 109B de paramètres au total répartis sur 16 experts avec 17B actifs par token
- Traitez des dépôts GitHub entiers pour une revue de code complète
- Idéal pour l'analyse de documents juridiques, la synthèse de recherche et les workflows d'audit
Maverick
Llama 4 Maverick : quand la qualité est la priorité
L'architecture à 128 experts de Maverick offre des performances de niveau frontier qui surpassent GPT-4o sur les benchmarks clés. C'est le modèle par défaut sur ce site pour une bonne raison : il gère le raisonnement complexe, la programmation et les tâches multimodales avec la qualité que vous attendriez des meilleures alternatives propriétaires.
- 80,5 % MMLU Pro pour des connaissances et un raisonnement de niveau frontier
- Surpasse GPT-4o sur les benchmarks de programmation avec 43,4 % sur LiveCodeBench v5
- 400B de paramètres au total répartis sur 128 experts pour une spécialisation profonde
- 73,4 % sur MMMU pour une solide compréhension multimodale des images et documents
- Appel de fonctions natif pour construire des workflows d'agents autonomes
Guide de sélection
Choisir la bonne option parmi les modèles Llama 4
Le choix entre les modèles Llama 4 dépend de ce qui compte le plus pour votre workflow spécifique. Les deux partagent la même empreinte de 17B de paramètres actifs et le support multimodal natif, donc la décision se résume à la longueur de contexte versus la qualité de sortie. De nombreuses équipes trouvent de la valeur à utiliser les deux variantes pour différentes parties de leur pipeline.
- Choisissez Scout pour les tâches nécessitant le traitement de plus d'un million de tokens à la fois
- Choisissez Maverick pour les tâches où la qualité de sortie et la profondeur de raisonnement comptent le plus
- Les deux partagent 17B de paramètres actifs, donc le coût d'inférence par token est comparable
- Utilisez Scout pour l'ingestion et l'analyse, puis Maverick pour la synthèse et la génération
- Les deux fonctionnent sous la même licence open weight, vous pouvez donc déployer l'un ou les deux librement
Essayer maintenant
Commencez à chatter avec Llama 4
Essayez les deux modèles instantanément via notre interface de chat.
Téléchargement
Obtenir les poids du modèle
Téléchargez les poids officiels pour l'une ou l'autre variante de Llama 4.
FAQ
Questions fréquentes sur les modèles Llama 4
Réponses aux questions les plus courantes sur le choix, l'exécution et le déploiement des modèles Llama 4 pour vos projets.
Il existe actuellement deux modèles Llama 4 : Scout et Maverick. Chacun est disponible en deux variantes, une version instruction-tuned optimisée pour le chat et l'accomplissement de tâches, et une version de base pré-entraînée pour le fine-tuning et la recherche. Cela vous donne quatre checkpoints au total selon que vous avez besoin d'un modèle conversationnel prêt à l'emploi ou d'une base pour un entraînement personnalisé.
Maverick est le meilleur choix pour les tâches de programmation. Il obtient 43,4 % sur LiveCodeBench v5, surpassant à la fois Scout (32,8 %) et GPT-4o (37,0 %). L'architecture à 128 experts offre une spécialisation profonde dans les langages de programmation et les frameworks. Cependant, si vous devez analyser une grande base de code entière d'un coup, la fenêtre de contexte de 10M de tokens de Scout vous permet de tout charger en un seul appel pour une analyse inter-fichiers.
Les versions complètes nécessitent des configurations multi-GPU. Scout a besoin d'environ 220 Go de VRAM en pleine précision, et Maverick d'environ 800 Go. Cependant, les versions quantifiées réduisent considérablement ces exigences. Scout avec quantification INT4 peut tenir sur environ 55 Go, ce qui est réalisable avec des GPU grand public haut de gamme. Maverick en INT4 nécessite encore environ 200 Go, le rendant plus adapté au cloud ou au matériel d'entreprise.
Scout est optimisé pour les tâches long contexte avec une fenêtre de 10M de tokens et 16 experts (109B de paramètres au total). Maverick privilégie la qualité de sortie avec 128 experts et 400B de paramètres au total mais une fenêtre de contexte de 1M de tokens. Les deux activent 17B de paramètres par token. Pensez à Scout comme l'objectif grand-angle et à Maverick comme l'objectif haute résolution du même système photographique.
Oui. Tous les modèles Llama 4 sont publiés sous la licence compatible Llama 3.1, qui autorise l'usage commercial, le fine-tuning et la redistribution. Vous pouvez les déployer sur votre propre infrastructure, construire des produits dessus et modifier les poids pour vos besoins spécifiques. La licence inclut des seuils d'utilisation pour les déploiements à très grande échelle desservant des centaines de millions d'utilisateurs.
Cela dépend du volume et de la complexité de vos documents. Pour analyser de grandes collections de documents, contrats ou articles de recherche en une seule passe, la fenêtre de contexte de 10M de tokens de Scout est idéale. Pour des documents plus courts où vous avez besoin de la plus haute qualité d'extraction, de résumé ou de raisonnement, l'architecture à 128 experts de Maverick produit des résultats plus nuancés et précis. Les deux supportent la compréhension native d'images pour les documents avec graphiques, tableaux et diagrammes.
Famille Llama 4
Explorez chaque modèle et comparez avec les concurrents
Plongez dans chaque variante ou voyez comment les modèles Llama 4 se comparent aux autres modèles ouverts frontier.
Commencer
Trouvez votre option idéale parmi les modèles Llama 4
Commencez à chatter gratuitement avec l'une ou l'autre variante, ou téléchargez les poids pour un déploiement local. Les deux sont open weight et prêts à l'emploi.