Llama 4 Maverick
400B de paramètres, 128 experts - le modèle ouvert le plus performant de Meta
Llama 4 Maverick est le premier modèle open weight à surpasser systématiquement GPT-4o dans plusieurs catégories de benchmarks. Avec 400B de paramètres au total routés à travers 128 experts spécialisés et seulement 17B actifs par token, il offre un raisonnement, une programmation et une compréhension multimodale de niveau frontier sans le coût d'une API propriétaire. Que vous ayez besoin de génération de code avancée, d'analyse scientifique ou de compréhension d'images, Llama 4 Maverick apporte la qualité des leaders propriétaires dans un package open weight déployable partout.
Variantes du modèle
Modèles instruction-tuned et de base
Choisissez entre la variante instruction-tuned optimisée pour le chat et les tâches complexes, ou le modèle de base pour le fine-tuning et la recherche.
Architecture MoE à 128 experts
400B de paramètres au total, 17B actifs par token
Maverick passe à 128 experts contre 16 pour Scout, embarquant 400B de paramètres au total tout en conservant la même empreinte de 17B actifs par token. Cela lui confère des capacités nettement supérieures en raisonnement, programmation et multimodal.
Le modèle de chat par défaut sur ce site. Idéal pour les tâches exigeant une qualité maximale : raisonnement complexe, génération de code, analyse multimodale et synthèse de recherche.
Instruction-tuned
Maverick Instruct
Optimisé pour l'IA conversationnelle, le raisonnement complexe et la génération de code
Fine-tuné avec RLHF pour le suivi d'instructions et le dialogue multi-tours
Pré-entraîné
Maverick Base
Modèle MoE de base pour le fine-tuning et les applications spécialisées
Pré-entraîné sur des données multimodales diversifiées avec routage à 128 experts
Capacités
Performances frontier de Llama 4 Maverick
Llama 4 Maverick combine l'efficacité MoE à 128 experts avec un raisonnement avancé, une programmation solide et une compréhension multimodale native. Chaque capacité est optimisée pour une qualité maximale à 17B de paramètres actifs par token, en faisant une alternative pratique aux modèles frontier propriétaires.
MoE à 128 experts
Route chaque token vers des experts spécialisés parmi un pool de 128. Les 400B de paramètres au total offrent une qualité frontier pour seulement 17B de coût d'inférence par token. Cette architecture permet à chaque expert de développer une spécialisation profonde dans des domaines spécifiques, des mathématiques à l'écriture créative, produisant une qualité constamment élevée sur des tâches variées.
Raisonnement avancé
De solides performances sur MMLU Pro (80,5 %) et GPQA Diamond (69,8 %) démontrent des connaissances approfondies et un raisonnement scientifique. Llama 4 Maverick gère la logique multi-étapes, les preuves mathématiques et les tâches analytiques complexes avec une précision qui égale ou dépasse les alternatives propriétaires. L'architecture à 128 experts permet à différents experts de contribuer des connaissances spécialisées à chaque étape du raisonnement.
Génération de code
Surpasse GPT-4o sur les benchmarks de programmation, notamment LiveCodeBench v5. Llama 4 Maverick génère du code prêt pour la production dans des dizaines de langages, débogue des problèmes complexes et explique clairement les approches algorithmiques. L'appel de fonctions natif permet des workflows agentiques où le modèle peut exécuter du code, appeler des API et enchaîner des opérations d'outils de manière autonome.
Contexte de 1M de tokens
Traitez de longs documents, des bases de code et des conversations étendues dans une fenêtre de contexte d'un million de tokens. Bien que Scout offre 10M de tokens pour les tâches long contexte extrêmes, la fenêtre de 1M de Llama 4 Maverick suffit pour la plupart des cas d'usage en production, y compris l'analyse de projets complets, les longs articles de recherche et les conversations multi-tours couvrant des centaines d'échanges.
Multimodal natif
L'architecture early fusion traite texte et images ensemble de manière native dès la conception. Analysez captures d'écran, diagrammes, graphiques, dessins techniques et documents en parallèle du texte sans pipelines de vision séparés. Llama 4 Maverick obtient 73,4 % sur MMMU, démontrant un solide raisonnement visuel rivalisant avec les modèles de vision dédiés.
Multilingue
De solides performances dans plusieurs langues font de Llama 4 Maverick un choix adapté aux applications internationales. Le modèle gère la traduction, le raisonnement inter-langues et la génération de contenu culturellement nuancé avec une qualité constante. Que vos utilisateurs communiquent en anglais, chinois, espagnol, français ou d'autres langues supportées, la qualité de sortie reste élevée.
Points clés
Pourquoi Llama 4 Maverick se démarque
Llama 4 Maverick est le premier modèle open weight à surpasser systématiquement GPT-4o dans plusieurs catégories de benchmarks.
Résultats phares des benchmarks
- MMLU Pro 80,5 % - compétitif avec les modèles frontier propriétaires
- GPQA Diamond 69,8 % - solide raisonnement scientifique
- MMMU 73,4 % - excellente compréhension multimodale
- Surpasse GPT-4o sur les benchmarks de programmation
- ELO Arena compétitif avec les modèles de premier rang
Spécifications techniques
- 400B de paramètres au total, 17B actifs par token
- 128 experts dans l'architecture MoE
- Fenêtre de contexte de 1M de tokens
- Multimodal natif (texte + image)
- Licence compatible Llama 3.1
Performances
Qualité frontier de Llama 4 Maverick
Llama 4 Maverick atteint 80,5 % sur MMLU Pro et 73,4 % sur MMMU, surpassant GPT-4o sur plusieurs benchmarks tout en n'activant que 17B de paramètres par token.
Les résultats des benchmarks racontent une histoire convaincante, mais c'est en utilisation réelle que Llama 4 Maverick fait vraiment ses preuves. Les développeurs rapportent que la qualité de génération de code rivalise avec les meilleurs modèles propriétaires, avec moins d'hallucinations et des implémentations de fonctions plus précises. Les chercheurs constatent que les tâches de raisonnement scientifique produisent des réponses bien structurées et conscientes des citations. L'architecture à 128 experts permet au modèle de puiser dans des connaissances profondément spécialisées pour chaque sous-tâche, produisant des résultats qui semblent venir d'un expert du domaine plutôt que d'un généraliste.
MMLU Pro 80,5 % - connaissances et raisonnement de niveau frontier
GPQA Diamond 69,8 % - solide raisonnement scientifique
MMMU 73,4 % - excellente compréhension multimodale
Surpasse GPT-4o sur les benchmarks de programmation
17B de paramètres actifs sur 400B au total (128 experts)
Comparaison des benchmarks
Maverick vs Scout et la génération précédente
L'architecture à 128 experts de Maverick apporte des améliorations significatives par rapport à Scout et Llama 3.1 dans toutes les catégories.
| Benchmark | Llama 4 Maverick 128 experts En vedette | Llama 4 Scout 16 experts | Llama 3.1 70B Dense | GPT-4o Propriétaire |
|---|---|---|---|---|
MMLU Pro Connaissances et raisonnement | 80.5% | 74.3% | 66.4% | 78.4% |
GPQA Diamond Connaissances scientifiques | 69.8% | 57.2% | 46.7% | 53.6% |
LiveCodeBench v5 Programmation | 43.4% | 32.8% | 28.5% | 37.0% |
MMMU Multimodal | 73.4% | 69.4% | - | 69.1% |
Context Window Tokens maximum | 1M | 10M | 128K | 128K |
Total Parameters Taille du modèle | 400B | 109B | 70B | - |
Active Parameters Par token | 17B | 17B | 70B | - |
Données issues de la fiche officielle de Meta et d'évaluations indépendantes.
Échelle à 128 experts
Comment Llama 4 Maverick offre une capacité de 400B au coût de 17B
L'architecture MoE à 128 experts de Llama 4 Maverick représente une montée en échelle significative par rapport aux 16 experts de Scout. Chaque token est routé vers des experts spécialisés, donnant au modèle accès à 400B de paramètres de connaissances tout en n'activant que 17B par passe forward. Cette conception permet une qualité de niveau frontier sans les exigences de calcul correspondantes.
- 128 experts contre 16 pour Scout, soit 8 fois plus de spécialisation par token
- 400B de paramètres au total contre 109B pour Scout, pour une capacité de connaissances plus profonde
- Même coût de 17B de paramètres actifs par token que Scout pour une inférence efficace
- Chaque expert développe une spécialisation profonde dans son domaine pendant l'entraînement
- Le routage sparse assure une sélection optimale des experts pour chaque entrée
Multimodal
Compréhension native des images dans Llama 4 Maverick
Llama 4 Maverick utilise l'architecture early fusion pour traiter texte et images ensemble de manière native. La compréhension visuelle est intégrée au modèle dès sa conception, pas ajoutée comme module séparé. Le résultat est un raisonnement fluide entre les deux modalités avec de solides performances sur les benchmarks visuels.
- 73,4 % sur le benchmark multimodal MMMU, surpassant les 69,1 % de GPT-4o
- Architecture early fusion pour un traitement multimodal natif sans pipelines séparés
- Analysez captures d'écran, diagrammes, graphiques et documents techniques avec précision
- Combinez analyse visuelle et génération de code pour les workflows de développement UI
- Traitez des documents mixtes contenant à la fois du texte et des images intégrées
Programmation
Programmation et appel de fonctions avec Llama 4 Maverick
Llama 4 Maverick surpasse GPT-4o sur les benchmarks de programmation et inclut l'appel de fonctions natif pour construire des workflows d'agents autonomes. Que vous ayez besoin de générer du code de production, de déboguer des problèmes complexes ou de construire des agents utilisant des outils, l'architecture à 128 experts fournit des connaissances spécialisées dans les langages de programmation et les frameworks.
- 43,4 % sur LiveCodeBench v5, dépassant les 37,0 % de GPT-4o sur le même benchmark
- L'appel de fonctions natif permet des workflows d'agents autonomes sans fine-tuning
- Génération de code prêt pour la production en Python, JavaScript, TypeScript, Rust et plus
- Débogage de problèmes complexes multi-fichiers avec une conscience complète du contexte de votre base de code
- Enchaînement de multiples appels d'outils pour l'automatisation de bout en bout dans les applications agentiques
Commencer
Essayez Llama 4 Maverick maintenant
Commencez à chatter instantanément ou téléchargez les poids pour un déploiement auto-hébergé.
Téléchargement et déploiement
Déploiement auto-hébergé
Téléchargez les poids officiels du modèle pour un déploiement sur votre infrastructure.
FAQ
Questions fréquentes sur Llama 4 Maverick
Réponses aux questions les plus courantes sur les performances, le déploiement et l'utilisation pratique de Llama 4 Maverick.
Oui. Llama 4 Maverick surpasse GPT-4o sur plusieurs benchmarks clés. Il obtient 80,5 % sur MMLU Pro contre 78,4 % pour GPT-4o, 69,8 % sur GPQA Diamond contre 53,6 %, et 43,4 % sur LiveCodeBench v5 contre 37,0 %. Sur les tâches multimodales, il atteint 73,4 % sur MMMU contre 69,1 % pour GPT-4o. Ces résultats proviennent des évaluations officielles de Meta et de tests indépendants.
Faire tourner Llama 4 Maverick en pleine précision nécessite environ 800 Go de VRAM, ce qui implique généralement un cluster de 8 GPU A100 80 Go ou plus. Avec la quantification INT8, vous pouvez réduire ce besoin à environ 400 Go (environ 5 GPU A100). La quantification INT4 le ramène à environ 200 Go. Les fournisseurs cloud proposent également un accès API hébergé si le déploiement local n'est pas pratique pour votre configuration.
L'architecture mixture of experts à 128 experts permet à Llama 4 Maverick de stocker 400B de paramètres de connaissances tout en n'activant que 17B par token pendant l'inférence. Chaque expert développe une spécialisation profonde pendant l'entraînement, de sorte que le mécanisme de routage peut sélectionner les experts les plus pertinents pour chaque entrée. Cela donne au modèle la profondeur de connaissances d'un modèle dense de 400B pour une fraction du coût de calcul.
Oui. Llama 4 Maverick est publié sous la licence compatible Llama 3.1, qui autorise l'usage commercial. Vous pouvez construire des produits, déployer des services et fine-tuner le modèle pour vos besoins métier spécifiques. La licence inclut des seuils d'utilisation pour les déploiements à très grande échelle, consultez donc les termes complets si votre application dessert des centaines de millions d'utilisateurs actifs mensuels.
Llama 4 Maverick utilise l'architecture early fusion, ce qui signifie que la compréhension d'images est intégrée au modèle dès sa conception plutôt qu'ajoutée comme encodeur de vision séparé. Il traite texte et images dans un flux unifié, permettant un raisonnement naturel entre les deux modalités. Il obtient 73,4 % sur MMMU, démontrant de solides performances sur les tâches nécessitant la compréhension de graphiques, diagrammes, captures d'écran et documents.
Plusieurs fournisseurs cloud proposent un accès API hébergé à Llama 4 Maverick, notamment des services sur AWS, Google Cloud, Azure et des plateformes d'inférence spécialisées comme Together AI, Fireworks et Groq. Vous pouvez également l'auto-héberger en utilisant des frameworks comme vLLM ou TGI. Pour une expérimentation rapide, l'interface de chat sur ce site utilise Llama 4 Maverick comme modèle par défaut sans aucune configuration requise.
Famille Llama 4
Explorez toute la gamme Llama 4
Maverick est le modèle ouvert phare de Meta. Comparez-le avec Scout et voyez comment il se positionne face aux autres modèles frontier.
Commencer
Prêt à essayer Llama 4 Maverick ?
Commencez à chatter gratuitement dès maintenant. Maverick est le modèle par défaut sur ce site - aucune configuration requise.