Llama 4 Models

Deux modèles, une famille - du long contexte à la qualité frontier

Les modèles Llama 4 représentent la publication open weight la plus ambitieuse de Meta à ce jour. Cette famille propose deux architectures mixture of experts conçues pour des priorités différentes : Scout gère un contexte massif avec une fenêtre de 10 millions de tokens et 16 experts, tandis que Maverick offre une qualité de niveau frontier grâce à 128 experts et 400B de paramètres au total. Les deux partagent 17B de paramètres actifs par token et un support multimodal natif, vous donnant la flexibilité de choisir le bon équilibre entre longueur de contexte et qualité de sortie pour votre workflow spécifique.

Commencer a discuter Comparer les modeles

Tous les modèles

Choisissez la bonne option parmi les modèles Llama 4

Scout et Maverick sont optimisés pour des scénarios différents. Comprendre leurs forces vous aide à choisir la variante qui correspond à votre charge de travail, que ce soit pour traiter des bases de code entières ou générer du raisonnement et du code de la plus haute qualité.

Llama 4 Scout

Fenêtre de contexte de 10M - le spécialiste du long contexte

109B de paramètres au total répartis sur 16 experts avec 17B actifs par token. Sa caractéristique phare est sa fenêtre de contexte de 10 millions de tokens, la plus longue de tous les modèles ouverts. Scout excelle lorsque votre tâche nécessite l'ingestion de grands volumes d'informations en une seule fois, des dépôts entiers aux collections de recherche multi-documents. Les tests needle-in-a-haystack confirment une précision de récupération de 95 % jusqu'à 8 millions de tokens.

Choisissez Scout quand vous devez traiter des bases de code entières, des ensembles de recherche multi-documents ou de très longs historiques de conversation en un seul appel. C'est la meilleure option quand la longueur du contexte compte plus que les différences marginales de qualité.

Essayer Scout En savoir plus

Llama 4 Maverick

128 experts, 400B de paramètres - le flagship qualité

400B de paramètres au total répartis sur 128 experts avec 17B actifs par token. Maverick surpasse GPT-4o sur les benchmarks clés, notamment MMLU Pro, GPQA Diamond et LiveCodeBench. L'architecture à 128 experts offre une spécialisation profonde dans tous les domaines, en faisant le modèle open weight le plus performant pour le raisonnement, la programmation et les tâches multimodales. Il propose une fenêtre de contexte de 1M de tokens pour la plupart des besoins en production.

Choisissez Maverick quand vous avez besoin d'une qualité maximale pour le raisonnement, la programmation, l'analyse multimodale et l'accomplissement de tâches complexes. C'est le modèle de chat par défaut sur ce site, et ce n'est pas un hasard.

Essayer Maverick En savoir plus

Long contexte

Llama 4 Scout

109B au total, 17B actifs, 16 experts. Fenêtre de contexte de 10M de tokens.

Idéal pour : bases de code entières, analyse multi-documents, longs articles de recherche, conversations étendues.

Disponible maintenant

En savoir plus Télécharger

Flagship

Llama 4 Maverick

400B au total, 17B actifs, 128 experts. Surpasse GPT-4o sur les benchmarks.

Idéal pour : raisonnement complexe, génération de code, tâches multimodales, synthèse de recherche.

Disponible maintenant

En savoir plus Télécharger

Capacités partagées

Ce que tous les modèles Llama 4 peuvent faire

Scout et Maverick partagent un ensemble commun de capacités construites sur l'architecture mixture of experts de Meta. Ces fondations communes signifient que vous pouvez passer d'une variante à l'autre sans modifier votre code d'intégration.

Multimodal natif

Les deux modèles Llama 4 traitent texte et images de manière native avec l'architecture early fusion. La compréhension visuelle est intégrée dès la conception, pas ajoutée comme encodeur séparé. Cela signifie que vous pouvez envoyer du contenu mixte, y compris captures d'écran, diagrammes et documents en parallèle du texte, et obtenir un raisonnement cohérent entre les deux modalités.

Efficacité MoE

Les deux modèles Llama 4 n'activent que 17B de paramètres par token malgré leurs grands comptes de paramètres totaux. Scout utilise 16 experts avec 109B au total, Maverick utilise 128 experts avec 400B au total. Cette stratégie de routage sparse offre de solides performances pour une fraction du coût de calcul des architectures denses équivalentes.

Appel de fonctions

L'appel de fonctions intégré aux deux modèles Llama 4 permet des workflows agentiques sans fine-tuning supplémentaire. Définissez vos outils, et le modèle décidera quand et comment les appeler. Cela facilite la construction d'agents autonomes qui interrogent des bases de données, appellent des API, exécutent du code et enchaînent des opérations.

Contexte étendu

Scout offre une fenêtre de contexte de 10M de tokens pour les tâches extrêmes sur documents longs, tandis que Maverick fournit 1M de tokens pour la plupart des scénarios de production. Les deux dépassent largement la limite de 128K des modèles de la génération précédente, vous donnant la possibilité d'inclure plus de contexte, plus d'exemples et plus d'historique dans chaque requête.

Multilingue

Un solide support multilingue dans les deux modèles Llama 4 permet des applications internationales. Que vos utilisateurs communiquent en anglais, chinois, espagnol, français ou d'autres langues supportées, les deux variantes maintiennent une qualité constante avec des réponses culturellement adaptées.

Open weight

Les deux modèles Llama 4 sont entièrement open weight sous la licence compatible Llama 3.1. Déployez où vous voulez, modifiez librement et fine-tunez pour vos besoins spécifiques. Cette ouverture signifie pas de dépendance fournisseur, une transparence totale sur le comportement du modèle et la possibilité de tout exécuter sur votre propre infrastructure.

Guide de sélection rapide

Quel modèle Llama 4 devriez-vous choisir ?

Associez votre cas d'usage principal à la bonne variante.

Choisissez Scout quand

Vous devez traiter de très longs documents (10M de tokens)
Analyse de base de code entière sur des centaines de fichiers
Recherche et synthèse multi-documents
Historiques de conversation étendus
Besoins en mémoire réduits (109B vs 400B au total)

Choisissez Maverick quand

La qualité maximale est la priorité
Raisonnement complexe et tâches scientifiques
Génération de code et débogage
Analyse multimodale (captures d'écran, diagrammes)
Tâches où les performances sur les benchmarks comptent le plus

Commencer le chat Voir tous les benchmarks

Performances

Comparaison complète des benchmarks des modèles Llama 4

Scout optimise la longueur de contexte, Maverick la qualité brute. Les deux offrent de solides performances par rapport à leurs objectifs de conception.

Le choix entre les modèles Llama 4 se résume à votre besoin principal. Si votre workflow implique le traitement de grands volumes de texte, de code ou de documents en un seul appel, la fenêtre de contexte de 10M de tokens de Scout est inégalée. Si vous avez besoin de la plus haute qualité possible pour le raisonnement, la programmation ou les tâches multimodales, l'architecture à 128 experts de Maverick délivre des résultats de niveau frontier qui rivalisent avec les meilleures offres propriétaires. De nombreuses équipes utilisent les deux : Maverick pour les tâches critiques en qualité et Scout pour l'analyse à grande échelle.

Commencer le chat Voir la fiche modèle

Comparaison des performances de la famille Llama 4

Maverick : 80,5 % MMLU Pro, 73,4 % MMMU, surpasse GPT-4o en programmation

Scout : contexte de 10M de tokens, 95%+ de récupération à 8M de tokens

Les deux : 17B de paramètres actifs, multimodal natif, appel de fonctions

Les deux : open weight sous licence compatible Llama 3.1

Comparaison complète

Scout vs Maverick côte à côte

Résultats complets des benchmarks en raisonnement, programmation, multimodal et métriques de déploiement.

Benchmark	Maverick 128 experts Flagship	Scout 16 experts Long contexte
MMLU Pro Connaissances et raisonnement	80.5%	74.3%
GPQA Diamond Connaissances scientifiques	69.8%	57.2%
LiveCodeBench v5 Programmation	43.4%	32.8%
MMMU Multimodal	73.4%	69.4%
Context Window Tokens maximum	1M	10M
Total Parameters Taille du modèle	400B	109B
Active Parameters Par token	17B	17B
Number of Experts Routage MoE	128	16

Données issues de la fiche officielle de Meta et d'évaluations indépendantes.

Scout

Llama 4 Scout : quand la longueur de contexte est primordiale

La fenêtre de contexte de 10M de tokens de Scout est inégalée parmi les modèles Llama 4 et dans tout le paysage open weight. Il peut traiter des bases de code entières, des ensembles de recherche multi-documents et des heures de transcriptions en un seul appel. Si votre tâche implique de très longues entrées, Scout est le choix évident.

Contexte de 10M de tokens, le plus long de tous les modèles ouverts disponibles aujourd'hui
95%+ de précision de récupération jusqu'à 8M de tokens dans les tests needle-in-a-haystack
109B de paramètres au total répartis sur 16 experts avec 17B actifs par token
Traitez des dépôts GitHub entiers pour une revue de code complète
Idéal pour l'analyse de documents juridiques, la synthèse de recherche et les workflows d'audit

Essayer Scout Détails de Scout

Maverick

Llama 4 Maverick : quand la qualité est la priorité

L'architecture à 128 experts de Maverick offre des performances de niveau frontier qui surpassent GPT-4o sur les benchmarks clés. C'est le modèle par défaut sur ce site pour une bonne raison : il gère le raisonnement complexe, la programmation et les tâches multimodales avec la qualité que vous attendriez des meilleures alternatives propriétaires.

80,5 % MMLU Pro pour des connaissances et un raisonnement de niveau frontier
Surpasse GPT-4o sur les benchmarks de programmation avec 43,4 % sur LiveCodeBench v5
400B de paramètres au total répartis sur 128 experts pour une spécialisation profonde
73,4 % sur MMMU pour une solide compréhension multimodale des images et documents
Appel de fonctions natif pour construire des workflows d'agents autonomes

Essayer Maverick Détails de Maverick

Guide de sélection

Choisir la bonne option parmi les modèles Llama 4

Le choix entre les modèles Llama 4 dépend de ce qui compte le plus pour votre workflow spécifique. Les deux partagent la même empreinte de 17B de paramètres actifs et le support multimodal natif, donc la décision se résume à la longueur de contexte versus la qualité de sortie. De nombreuses équipes trouvent de la valeur à utiliser les deux variantes pour différentes parties de leur pipeline.

Choisissez Scout pour les tâches nécessitant le traitement de plus d'un million de tokens à la fois
Choisissez Maverick pour les tâches où la qualité de sortie et la profondeur de raisonnement comptent le plus
Les deux partagent 17B de paramètres actifs, donc le coût d'inférence par token est comparable
Utilisez Scout pour l'ingestion et l'analyse, puis Maverick pour la synthèse et la génération
Les deux fonctionnent sous la même licence open weight, vous pouvez donc déployer l'un ou les deux librement

Essayer maintenant

Commencez à chatter avec Llama 4

Essayez les deux modèles instantanément via notre interface de chat.

Commencer le chat

Chattez avec les modèles Llama 4 instantanément, aucune configuration requise

Fiche modèle

Spécifications techniques complètes pour les deux variantes

Documentation

Guides d'intégration et bonnes pratiques

Téléchargement

Obtenir les poids du modèle

Téléchargez les poids officiels pour l'une ou l'autre variante de Llama 4.

Hugging Face

Tous les dépôts de modèles Llama 4

Ollama

Exécutez l'une ou l'autre variante localement avec Ollama

GitHub

Code source et exemples

FAQ

Questions fréquentes sur les modèles Llama 4

Réponses aux questions les plus courantes sur le choix, l'exécution et le déploiement des modèles Llama 4 pour vos projets.

Combien de modèles Llama 4 sont disponibles actuellement ?

Il existe actuellement deux modèles Llama 4 : Scout et Maverick. Chacun est disponible en deux variantes, une version instruction-tuned optimisée pour le chat et l'accomplissement de tâches, et une version de base pré-entraînée pour le fine-tuning et la recherche. Cela vous donne quatre checkpoints au total selon que vous avez besoin d'un modèle conversationnel prêt à l'emploi ou d'une base pour un entraînement personnalisé.

Quel modèle Llama 4 est le meilleur pour les tâches de programmation ?

Maverick est le meilleur choix pour les tâches de programmation. Il obtient 43,4 % sur LiveCodeBench v5, surpassant à la fois Scout (32,8 %) et GPT-4o (37,0 %). L'architecture à 128 experts offre une spécialisation profonde dans les langages de programmation et les frameworks. Cependant, si vous devez analyser une grande base de code entière d'un coup, la fenêtre de contexte de 10M de tokens de Scout vous permet de tout charger en un seul appel pour une analyse inter-fichiers.

Puis-je faire tourner un modèle Llama 4 sur un GPU grand public ?

Les versions complètes nécessitent des configurations multi-GPU. Scout a besoin d'environ 220 Go de VRAM en pleine précision, et Maverick d'environ 800 Go. Cependant, les versions quantifiées réduisent considérablement ces exigences. Scout avec quantification INT4 peut tenir sur environ 55 Go, ce qui est réalisable avec des GPU grand public haut de gamme. Maverick en INT4 nécessite encore environ 200 Go, le rendant plus adapté au cloud ou au matériel d'entreprise.

Quelle est la différence entre Scout et Maverick dans la famille Llama 4 ?

Scout est optimisé pour les tâches long contexte avec une fenêtre de 10M de tokens et 16 experts (109B de paramètres au total). Maverick privilégie la qualité de sortie avec 128 experts et 400B de paramètres au total mais une fenêtre de contexte de 1M de tokens. Les deux activent 17B de paramètres par token. Pensez à Scout comme l'objectif grand-angle et à Maverick comme l'objectif haute résolution du même système photographique.

Tous les modèles Llama 4 sont-ils gratuits et open weight ?

Oui. Tous les modèles Llama 4 sont publiés sous la licence compatible Llama 3.1, qui autorise l'usage commercial, le fine-tuning et la redistribution. Vous pouvez les déployer sur votre propre infrastructure, construire des produits dessus et modifier les poids pour vos besoins spécifiques. La licence inclut des seuils d'utilisation pour les déploiements à très grande échelle desservant des centaines de millions d'utilisateurs.

Quel modèle Llama 4 choisir pour l'analyse de documents ?

Cela dépend du volume et de la complexité de vos documents. Pour analyser de grandes collections de documents, contrats ou articles de recherche en une seule passe, la fenêtre de contexte de 10M de tokens de Scout est idéale. Pour des documents plus courts où vous avez besoin de la plus haute qualité d'extraction, de résumé ou de raisonnement, l'architecture à 128 experts de Maverick produit des résultats plus nuancés et précis. Les deux supportent la compréhension native d'images pour les documents avec graphiques, tableaux et diagrammes.

Famille Llama 4

Explorez chaque modèle et comparez avec les concurrents

Plongez dans chaque variante ou voyez comment les modèles Llama 4 se comparent aux autres modèles ouverts frontier.

Page officielle Llama GitHub

Llama 4 Scout

Spécialiste de la fenêtre de contexte de 10M

Explorer

Llama 4 Maverick

Modèle flagship à 128 experts

Explorer

Llama 4 vs Kimi K2.6

Comparaison Meta vs Moonshot

Comparer

Llama 4 vs Qwen 3.6

Comparaison Meta vs Alibaba

Comparer

Llama 4 vs DeepSeek V4

Duel d'architectures MoE

Comparer

Llama 4 vs MiniMax M2.7

Échelle vs efficacité

Comparer

Commencer

Trouvez votre option idéale parmi les modèles Llama 4

Commencez à chatter gratuitement avec l'une ou l'autre variante, ou téléchargez les poids pour un déploiement local. Les deux sont open weight et prêts à l'emploi.

Chat gratuit Télécharger les modèles