Modelos Llama 4
Dos modelos, una familia: de contexto largo a calidad de frontera
La familia Llama 4 cuenta con dos modelos MoE: Scout para contexto masivo (10M tokens) y Maverick para máxima calidad (128 expertos, 400B parámetros). Ambos comparten 17B parámetros activos por token y soporte multimodal nativo.
Todos los modelos
Elige el Llama 4 adecuado para tu caso de uso
Scout y Maverick están optimizados para escenarios diferentes. Scout destaca en tareas de contexto largo, Maverick en máxima calidad.
Llama 4 Scout
Ventana de contexto de 10M: el especialista en contexto largo
109B parámetros totales en 16 expertos con 17B activos por token. Su característica destacada es la ventana de contexto de 10 millones de tokens, la más larga de cualquier modelo abierto disponible.
Elige Scout cuando necesites procesar repositorios completos, conjuntos de investigación multidocumento o historiales de conversación muy largos en una sola llamada.
Llama 4 Maverick
128 expertos, 400B parámetros: el modelo insignia de calidad
400B parámetros totales en 128 expertos con 17B activos por token. Supera a GPT-4o en benchmarks clave. El modelo de chat predeterminado en este sitio.
Elige Maverick cuando necesites máxima calidad para razonamiento, programación, análisis multimodal y tareas complejas.
Contexto largo
Llama 4 Scout
109B totales, 17B activos, 16 expertos. Ventana de contexto de 10M tokens.
Ideal para: repositorios completos, análisis multidocumento, artículos de investigación extensos, conversaciones prolongadas.
Capacidades compartidas
Qué pueden hacer ambos modelos Llama 4
Scout y Maverick comparten un conjunto común de capacidades basadas en la arquitectura MoE de Meta.
Multimodal nativo
Ambos modelos procesan texto e imágenes de forma nativa con arquitectura de fusión temprana. No se necesitan codificadores ni pipelines separados.
Eficiencia MoE
Ambos activan solo 17B parámetros por token. Scout usa 16 expertos (109B totales), Maverick usa 128 expertos (400B totales).
Llamadas a funciones
Llamadas a funciones integradas en ambos modelos que permiten flujos de trabajo agénticos. No se necesita ajuste fino para el uso de herramientas.
Contexto extendido
Scout: 10M tokens. Maverick: 1M tokens. Ambos superan con creces los límites de la generación anterior.
Multilingüe
Sólido soporte multilingüe en ambos modelos para aplicaciones globales.
Pesos abiertos
Ambos modelos tienen pesos completamente abiertos bajo la licencia compatible con Llama 3.1. Despliega donde quieras, modifica libremente.
Guía rápida de selección
¿Qué modelo deberías elegir?
Asocia tu caso de uso principal con la variante Llama 4 adecuada.
Elige Scout cuando
- Necesites procesar documentos muy largos (10M tokens)
- Análisis de repositorios completos con cientos de archivos
- Investigación y síntesis multidocumento
- Historiales de conversación extensos
- Menores requisitos de memoria (109B vs 400B totales)
Elige Maverick cuando
- La máxima calidad sea la prioridad
- Razonamiento complejo y tareas científicas
- Generación y depuración de código
- Análisis multimodal (capturas de pantalla, diagramas)
- Tareas donde el rendimiento en benchmarks sea lo más importante
Rendimiento
Comparativa completa de benchmarks
Scout optimiza la longitud de contexto, Maverick la calidad bruta. Ambos ofrecen un rendimiento sólido en relación con sus objetivos de diseño.
La elección entre Scout y Maverick depende de tu necesidad principal: contexto masivo o máxima calidad. Así se comparan en los benchmarks clave.
Maverick: 80.5% MMLU Pro, 73.4% MMMU, supera a GPT-4o en programación
Scout: contexto de 10M tokens, más del 95% de recuperación a 8M tokens
Ambos: 17B parámetros activos, multimodal nativo, llamadas a funciones
Ambos: pesos abiertos bajo licencia compatible con Llama 3.1
Comparativa completa
Scout vs Maverick lado a lado
Resultados completos de benchmarks en razonamiento, programación, multimodal y métricas de despliegue.
| Benchmark | Maverick 128 expertos Modelo insignia | Scout 16 expertos Contexto largo |
|---|---|---|
MMLU Pro Conocimiento y razonamiento | 80.5% | 74.3% |
GPQA Diamond Conocimiento científico | 69.8% | 57.2% |
LiveCodeBench v5 Programación | 43.4% | 32.8% |
MMMU Multimodal | 73.4% | 69.4% |
Context Window Tokens máximos | 1M | 10M |
Total Parameters Tamaño del modelo | 400B | 109B |
Active Parameters Por token | 17B | 17B |
Number of Experts Enrutamiento MoE | 128 | 16 |
Datos de la ficha oficial de Meta y evaluaciones independientes.
Scout
Scout: cuando la longitud de contexto lo es todo
La ventana de contexto de 10M tokens de Scout no tiene rival. Puede procesar repositorios completos, conjuntos de investigación multidocumento y horas de transcripciones en una sola llamada. Si tu tarea implica entradas muy largas, Scout es la opción clara.
- Contexto de 10M tokens: el más largo de cualquier modelo abierto
- Más del 95% de precisión en recuperación hasta 8M tokens
- 109B parámetros totales en 16 expertos
Maverick
Maverick: cuando la calidad es la prioridad
La arquitectura de 128 expertos de Maverick ofrece rendimiento de frontera. Supera a GPT-4o en benchmarks clave y es el modelo predeterminado en este sitio por una buena razón: maneja razonamiento complejo, programación y tareas multimodales con facilidad.
- 80.5% MMLU Pro: conocimiento y razonamiento de frontera
- Supera a GPT-4o en benchmarks de programación
- 400B parámetros totales en 128 expertos
Probar ahora
Empieza a chatear con Llama 4
Prueba ambos modelos al instante a través de nuestra interfaz de chat.
Descargar
Obtener pesos del modelo
Descarga los pesos oficiales de cualquier variante de Llama 4.
Familia Llama 4
Explora cada modelo y compara con la competencia
Profundiza en cada variante de Llama 4 o mira cómo se comparan con otros modelos abiertos de frontera.
Comenzar
Encuentra tu modelo Llama 4
Empieza a chatear gratis con cualquier modelo Llama 4 o descarga los pesos para despliegue local.