Llama 4 Maverick

400B de paramètres, 128 experts - le modèle ouvert le plus performant de Meta

Llama 4 Maverick est le premier modèle open weight à surpasser systématiquement GPT-4o dans plusieurs catégories de benchmarks. Avec 400B de paramètres au total routés à travers 128 experts spécialisés et seulement 17B actifs par token, il offre un raisonnement, une programmation et une compréhension multimodale de niveau frontier sans le coût d'une API propriétaire. Que vous ayez besoin de génération de code avancée, d'analyse scientifique ou de compréhension d'images, Llama 4 Maverick apporte la qualité des leaders propriétaires dans un package open weight déployable partout.

Commencer le chat Voir les benchmarks

Variantes du modèle

Modèles instruction-tuned et de base

Choisissez entre la variante instruction-tuned optimisée pour le chat et les tâches complexes, ou le modèle de base pour le fine-tuning et la recherche.

Architecture MoE à 128 experts

400B de paramètres au total, 17B actifs par token

Maverick passe à 128 experts contre 16 pour Scout, embarquant 400B de paramètres au total tout en conservant la même empreinte de 17B actifs par token. Cela lui confère des capacités nettement supérieures en raisonnement, programmation et multimodal.

Le modèle de chat par défaut sur ce site. Idéal pour les tâches exigeant une qualité maximale : raisonnement complexe, génération de code, analyse multimodale et synthèse de recherche.

Commencer le chat Voir les capacités

Instruction-tuned

Maverick Instruct

Optimisé pour l'IA conversationnelle, le raisonnement complexe et la génération de code

Fine-tuné avec RLHF pour le suivi d'instructions et le dialogue multi-tours

Disponible maintenant

Commencer le chat Télécharger les poids

Pré-entraîné

Maverick Base

Modèle MoE de base pour le fine-tuning et les applications spécialisées

Pré-entraîné sur des données multimodales diversifiées avec routage à 128 experts

Disponible maintenant

Voir sur HuggingFace Documentation

Capacités

Performances frontier de Llama 4 Maverick

Llama 4 Maverick combine l'efficacité MoE à 128 experts avec un raisonnement avancé, une programmation solide et une compréhension multimodale native. Chaque capacité est optimisée pour une qualité maximale à 17B de paramètres actifs par token, en faisant une alternative pratique aux modèles frontier propriétaires.

MoE à 128 experts

Route chaque token vers des experts spécialisés parmi un pool de 128. Les 400B de paramètres au total offrent une qualité frontier pour seulement 17B de coût d'inférence par token. Cette architecture permet à chaque expert de développer une spécialisation profonde dans des domaines spécifiques, des mathématiques à l'écriture créative, produisant une qualité constamment élevée sur des tâches variées.

Raisonnement avancé

De solides performances sur MMLU Pro (80,5 %) et GPQA Diamond (69,8 %) démontrent des connaissances approfondies et un raisonnement scientifique. Llama 4 Maverick gère la logique multi-étapes, les preuves mathématiques et les tâches analytiques complexes avec une précision qui égale ou dépasse les alternatives propriétaires. L'architecture à 128 experts permet à différents experts de contribuer des connaissances spécialisées à chaque étape du raisonnement.

Génération de code

Surpasse GPT-4o sur les benchmarks de programmation, notamment LiveCodeBench v5. Llama 4 Maverick génère du code prêt pour la production dans des dizaines de langages, débogue des problèmes complexes et explique clairement les approches algorithmiques. L'appel de fonctions natif permet des workflows agentiques où le modèle peut exécuter du code, appeler des API et enchaîner des opérations d'outils de manière autonome.

Contexte de 1M de tokens

Traitez de longs documents, des bases de code et des conversations étendues dans une fenêtre de contexte d'un million de tokens. Bien que Scout offre 10M de tokens pour les tâches long contexte extrêmes, la fenêtre de 1M de Llama 4 Maverick suffit pour la plupart des cas d'usage en production, y compris l'analyse de projets complets, les longs articles de recherche et les conversations multi-tours couvrant des centaines d'échanges.

Multimodal natif

L'architecture early fusion traite texte et images ensemble de manière native dès la conception. Analysez captures d'écran, diagrammes, graphiques, dessins techniques et documents en parallèle du texte sans pipelines de vision séparés. Llama 4 Maverick obtient 73,4 % sur MMMU, démontrant un solide raisonnement visuel rivalisant avec les modèles de vision dédiés.

Multilingue

De solides performances dans plusieurs langues font de Llama 4 Maverick un choix adapté aux applications internationales. Le modèle gère la traduction, le raisonnement inter-langues et la génération de contenu culturellement nuancé avec une qualité constante. Que vos utilisateurs communiquent en anglais, chinois, espagnol, français ou d'autres langues supportées, la qualité de sortie reste élevée.

Points clés

Pourquoi Llama 4 Maverick se démarque

Llama 4 Maverick est le premier modèle open weight à surpasser systématiquement GPT-4o dans plusieurs catégories de benchmarks.

Résultats phares des benchmarks

MMLU Pro 80,5 % - compétitif avec les modèles frontier propriétaires
GPQA Diamond 69,8 % - solide raisonnement scientifique
MMMU 73,4 % - excellente compréhension multimodale
Surpasse GPT-4o sur les benchmarks de programmation
ELO Arena compétitif avec les modèles de premier rang

Spécifications techniques

400B de paramètres au total, 17B actifs par token
128 experts dans l'architecture MoE
Fenêtre de contexte de 1M de tokens
Multimodal natif (texte + image)
Licence compatible Llama 3.1

Chat gratuit Télécharger les poids

Performances

Qualité frontier de Llama 4 Maverick

Llama 4 Maverick atteint 80,5 % sur MMLU Pro et 73,4 % sur MMMU, surpassant GPT-4o sur plusieurs benchmarks tout en n'activant que 17B de paramètres par token.

Les résultats des benchmarks racontent une histoire convaincante, mais c'est en utilisation réelle que Llama 4 Maverick fait vraiment ses preuves. Les développeurs rapportent que la qualité de génération de code rivalise avec les meilleurs modèles propriétaires, avec moins d'hallucinations et des implémentations de fonctions plus précises. Les chercheurs constatent que les tâches de raisonnement scientifique produisent des réponses bien structurées et conscientes des citations. L'architecture à 128 experts permet au modèle de puiser dans des connaissances profondément spécialisées pour chaque sous-tâche, produisant des résultats qui semblent venir d'un expert du domaine plutôt que d'un généraliste.

Commencer le chat Voir la fiche modèle

Graphique de comparaison des performances de Llama 4 Maverick

MMLU Pro 80,5 % - connaissances et raisonnement de niveau frontier

GPQA Diamond 69,8 % - solide raisonnement scientifique

MMMU 73,4 % - excellente compréhension multimodale

Surpasse GPT-4o sur les benchmarks de programmation

17B de paramètres actifs sur 400B au total (128 experts)

Comparaison des benchmarks

Maverick vs Scout et la génération précédente

L'architecture à 128 experts de Maverick apporte des améliorations significatives par rapport à Scout et Llama 3.1 dans toutes les catégories.

Benchmark	Llama 4 Maverick 128 experts En vedette	Llama 4 Scout 16 experts	Llama 3.1 70B Dense	GPT-4o Propriétaire
MMLU Pro Connaissances et raisonnement	80.5%	74.3%	66.4%	78.4%
GPQA Diamond Connaissances scientifiques	69.8%	57.2%	46.7%	53.6%
LiveCodeBench v5 Programmation	43.4%	32.8%	28.5%	37.0%
MMMU Multimodal	73.4%	69.4%	-	69.1%
Context Window Tokens maximum	1M	10M	128K	128K
Total Parameters Taille du modèle	400B	109B	70B	-
Active Parameters Par token	17B	17B	70B	-

Données issues de la fiche officielle de Meta et d'évaluations indépendantes.

Échelle à 128 experts

Comment Llama 4 Maverick offre une capacité de 400B au coût de 17B

L'architecture MoE à 128 experts de Llama 4 Maverick représente une montée en échelle significative par rapport aux 16 experts de Scout. Chaque token est routé vers des experts spécialisés, donnant au modèle accès à 400B de paramètres de connaissances tout en n'activant que 17B par passe forward. Cette conception permet une qualité de niveau frontier sans les exigences de calcul correspondantes.

128 experts contre 16 pour Scout, soit 8 fois plus de spécialisation par token
400B de paramètres au total contre 109B pour Scout, pour une capacité de connaissances plus profonde
Même coût de 17B de paramètres actifs par token que Scout pour une inférence efficace
Chaque expert développe une spécialisation profonde dans son domaine pendant l'entraînement
Le routage sparse assure une sélection optimale des experts pour chaque entrée

Commencer le chat Voir les benchmarks

Llama 4 Maverick 128-expert MoE architecture

Multimodal

Compréhension native des images dans Llama 4 Maverick

Llama 4 Maverick utilise l'architecture early fusion pour traiter texte et images ensemble de manière native. La compréhension visuelle est intégrée au modèle dès sa conception, pas ajoutée comme module séparé. Le résultat est un raisonnement fluide entre les deux modalités avec de solides performances sur les benchmarks visuels.

73,4 % sur le benchmark multimodal MMMU, surpassant les 69,1 % de GPT-4o
Architecture early fusion pour un traitement multimodal natif sans pipelines séparés
Analysez captures d'écran, diagrammes, graphiques et documents techniques avec précision
Combinez analyse visuelle et génération de code pour les workflows de développement UI
Traitez des documents mixtes contenant à la fois du texte et des images intégrées

Essayer le chat multimodal En savoir plus

Llama 4 Maverick multimodal capabilities

Programmation

Programmation et appel de fonctions avec Llama 4 Maverick

Llama 4 Maverick surpasse GPT-4o sur les benchmarks de programmation et inclut l'appel de fonctions natif pour construire des workflows d'agents autonomes. Que vous ayez besoin de générer du code de production, de déboguer des problèmes complexes ou de construire des agents utilisant des outils, l'architecture à 128 experts fournit des connaissances spécialisées dans les langages de programmation et les frameworks.

43,4 % sur LiveCodeBench v5, dépassant les 37,0 % de GPT-4o sur le même benchmark
L'appel de fonctions natif permet des workflows d'agents autonomes sans fine-tuning
Génération de code prêt pour la production en Python, JavaScript, TypeScript, Rust et plus
Débogage de problèmes complexes multi-fichiers avec une conscience complète du contexte de votre base de code
Enchaînement de multiples appels d'outils pour l'automatisation de bout en bout dans les applications agentiques

Commencer

Essayez Llama 4 Maverick maintenant

Commencez à chatter instantanément ou téléchargez les poids pour un déploiement auto-hébergé.

Chatter avec Maverick

Essayez Llama 4 Maverick instantanément - aucune configuration requise

Fiche modèle

Spécifications techniques complètes et benchmarks

Documentation

Guides d'intégration et bonnes pratiques

Téléchargement et déploiement

Déploiement auto-hébergé

Téléchargez les poids officiels du modèle pour un déploiement sur votre infrastructure.

Hugging Face

Dépôt officiel du modèle Llama 4 Maverick

Ollama

Exécutez localement avec Ollama

GitHub

Code source et exemples

FAQ

Questions fréquentes sur Llama 4 Maverick

Réponses aux questions les plus courantes sur les performances, le déploiement et l'utilisation pratique de Llama 4 Maverick.

Llama 4 Maverick surpasse-t-il vraiment GPT-4o sur les benchmarks ?

Oui. Llama 4 Maverick surpasse GPT-4o sur plusieurs benchmarks clés. Il obtient 80,5 % sur MMLU Pro contre 78,4 % pour GPT-4o, 69,8 % sur GPQA Diamond contre 53,6 %, et 43,4 % sur LiveCodeBench v5 contre 37,0 %. Sur les tâches multimodales, il atteint 73,4 % sur MMMU contre 69,1 % pour GPT-4o. Ces résultats proviennent des évaluations officielles de Meta et de tests indépendants.

Combien de GPU faut-il pour faire tourner Llama 4 Maverick ?

Faire tourner Llama 4 Maverick en pleine précision nécessite environ 800 Go de VRAM, ce qui implique généralement un cluster de 8 GPU A100 80 Go ou plus. Avec la quantification INT8, vous pouvez réduire ce besoin à environ 400 Go (environ 5 GPU A100). La quantification INT4 le ramène à environ 200 Go. Les fournisseurs cloud proposent également un accès API hébergé si le déploiement local n'est pas pratique pour votre configuration.

Qu'est-ce qui rend l'architecture à 128 experts spéciale dans Llama 4 Maverick ?

L'architecture mixture of experts à 128 experts permet à Llama 4 Maverick de stocker 400B de paramètres de connaissances tout en n'activant que 17B par token pendant l'inférence. Chaque expert développe une spécialisation profonde pendant l'entraînement, de sorte que le mécanisme de routage peut sélectionner les experts les plus pertinents pour chaque entrée. Cela donne au modèle la profondeur de connaissances d'un modèle dense de 400B pour une fraction du coût de calcul.

Puis-je utiliser Llama 4 Maverick pour des projets commerciaux ?

Oui. Llama 4 Maverick est publié sous la licence compatible Llama 3.1, qui autorise l'usage commercial. Vous pouvez construire des produits, déployer des services et fine-tuner le modèle pour vos besoins métier spécifiques. La licence inclut des seuils d'utilisation pour les déploiements à très grande échelle, consultez donc les termes complets si votre application dessert des centaines de millions d'utilisateurs actifs mensuels.

Comment Llama 4 Maverick gère-t-il la compréhension d'images ?

Llama 4 Maverick utilise l'architecture early fusion, ce qui signifie que la compréhension d'images est intégrée au modèle dès sa conception plutôt qu'ajoutée comme encodeur de vision séparé. Il traite texte et images dans un flux unifié, permettant un raisonnement naturel entre les deux modalités. Il obtient 73,4 % sur MMMU, démontrant de solides performances sur les tâches nécessitant la compréhension de graphiques, diagrammes, captures d'écran et documents.

Quel est le meilleur moyen d'accéder à Llama 4 Maverick via une API ?

Plusieurs fournisseurs cloud proposent un accès API hébergé à Llama 4 Maverick, notamment des services sur AWS, Google Cloud, Azure et des plateformes d'inférence spécialisées comme Together AI, Fireworks et Groq. Vous pouvez également l'auto-héberger en utilisant des frameworks comme vLLM ou TGI. Pour une expérimentation rapide, l'interface de chat sur ce site utilise Llama 4 Maverick comme modèle par défaut sans aucune configuration requise.

Famille Llama 4