Llama 4 Maverick

400B de parámetros, 128 expertos: el modelo abierto más capaz de Meta

Llama 4 Maverick es el primer modelo de pesos abiertos que supera consistentemente a GPT-4o en múltiples categorías de benchmarks. Con 400B de parámetros totales enrutados a través de 128 expertos especializados y solo 17B activos por token, ofrece razonamiento, programación y comprensión multimodal de nivel frontera sin el costo de una API propietaria. Ya sea que necesites generación avanzada de código, análisis científico o comprensión de imágenes, Llama 4 Maverick trae la calidad de los líderes de código cerrado a un paquete de pesos abiertos que puedes desplegar en cualquier lugar.

Variantes del modelo

Modelos instruction-tuned y base

Elige entre la variante instruction-tuned optimizada para chat y tareas complejas, o el modelo base para fine-tuning e investigación.

Arquitectura MoE de 128 expertos

400B de parámetros totales, 17B activos por token

Maverick escala a 128 expertos desde los 16 de Scout, empaquetando 400B de parámetros totales mientras mantiene la misma huella de 17B activos por token. Esto le da capacidades significativamente más fuertes en razonamiento, programación y multimodal.

El modelo de chat predeterminado en este sitio. Ideal para tareas que requieren máxima calidad: razonamiento complejo, generación de código, análisis multimodal y síntesis de investigación.

Instruction-tuned

Maverick Instruct

Optimizado para IA conversacional, razonamiento complejo y generación de código

Ajustado con RLHF para seguir instrucciones y diálogo multi-turno

Disponible ahora

Pre-entrenado

Maverick Base

Modelo MoE base para fine-tuning y aplicaciones especializadas

Pre-entrenado con datos multimodales diversos y enrutamiento de 128 expertos

Disponible ahora

Capacidades

Rendimiento de frontera con Llama 4 Maverick

Llama 4 Maverick combina eficiencia MoE de 128 expertos con razonamiento avanzado, programación sólida y comprensión multimodal nativa. Cada capacidad está ajustada para máxima calidad con 17B de parámetros activos por token, convirtiéndolo en una alternativa práctica a los modelos propietarios de frontera.

MoE de 128 expertos

Enruta cada token a través de expertos especializados de un pool de 128. Los 400B de parámetros totales ofrecen calidad de frontera con solo 17B de costo de inferencia por token. Esta arquitectura permite que cada experto desarrolle una especialización profunda en dominios específicos, desde matemáticas hasta escritura creativa, resultando en una calidad consistentemente alta en tareas diversas.

Razonamiento avanzado

El sólido rendimiento en MMLU Pro (80.5%) y GPQA Diamond (69.8%) demuestra conocimiento profundo y razonamiento científico. Llama 4 Maverick maneja lógica multi-paso, demostraciones matemáticas y tareas analíticas complejas con una precisión que iguala o supera a las alternativas propietarias. La arquitectura de 128 expertos permite que diferentes expertos contribuyan conocimiento especializado en cada paso de razonamiento.

Generación de código

Supera a GPT-4o en benchmarks de programación incluyendo LiveCodeBench v5. Llama 4 Maverick genera código listo para producción en docenas de lenguajes de programación, depura problemas complejos y explica enfoques algorítmicos con claridad. El function calling nativo permite flujos de trabajo agénticos donde el modelo puede ejecutar código autónomamente, llamar APIs y encadenar operaciones con herramientas.

Contexto de 1M de tokens

Procesa documentos largos, repositorios y conversaciones extendidas dentro de una ventana de contexto de 1 millón de tokens. Mientras Scout ofrece 10M de tokens para tareas extremas de contexto largo, la ventana de 1M de Llama 4 Maverick es suficiente para la mayoría de casos de uso en producción, incluyendo análisis de proyectos completos, artículos de investigación extensos y conversaciones multi-turno que abarcan cientos de intercambios.

Multimodal nativo

La arquitectura de fusión temprana procesa texto e imágenes juntos de forma nativa desde su base. Analiza capturas de pantalla, diagramas, gráficos, dibujos técnicos y documentos junto con texto sin pipelines de visión separados. Llama 4 Maverick obtiene 73.4% en MMMU, demostrando un sólido razonamiento visual que rivaliza con modelos de visión dedicados.

Multilingüe

El sólido rendimiento en múltiples idiomas hace que Llama 4 Maverick sea adecuado para aplicaciones globales. El modelo maneja traducción, razonamiento entre idiomas y generación de contenido culturalmente matizado con calidad consistente. Ya sea que tus usuarios se comuniquen en inglés, chino, español, francés u otros idiomas soportados, la calidad de salida se mantiene alta.

Puntos clave

Por qué destaca Llama 4 Maverick

Llama 4 Maverick es el primer modelo de pesos abiertos que supera consistentemente a GPT-4o en múltiples categorías de benchmarks.

Destacados en benchmarks

  • MMLU Pro 80.5%: competitivo con modelos propietarios de frontera
  • GPQA Diamond 69.8%: sólido razonamiento científico
  • MMMU 73.4%: excelente comprensión multimodal
  • Supera a GPT-4o en benchmarks de programación
  • Arena ELO competitivo con modelos de primer nivel

Especificaciones técnicas

  • 400B de parámetros totales, 17B activos por token
  • 128 expertos en arquitectura MoE
  • Ventana de contexto de 1M de tokens
  • Multimodal nativo (texto + imagen)
  • Licencia compatible con Llama 3.1

Rendimiento

Calidad de frontera con Llama 4 Maverick

Llama 4 Maverick alcanza 80.5% en MMLU Pro y 73.4% en MMMU, superando a GPT-4o en múltiples benchmarks mientras activa solo 17B de parámetros por token.

Los resultados de benchmarks cuentan una historia convincente, pero el rendimiento en el mundo real es donde Llama 4 Maverick realmente se demuestra. Los desarrolladores reportan que la calidad de generación de código rivaliza con los mejores modelos propietarios, con menos alucinaciones e implementaciones de funciones más precisas. Los investigadores encuentran que las tareas de razonamiento científico producen respuestas bien estructuradas y conscientes de citas. La arquitectura de 128 expertos permite que el modelo recurra a conocimiento profundamente especializado para cada subtarea, resultando en salidas que parecen venir de un experto en el dominio en lugar de un generalista.

Gráfico comparativo de rendimiento de Llama 4 Maverick

MMLU Pro 80.5%: conocimiento y razonamiento de nivel frontera

GPQA Diamond 69.8%: sólido razonamiento científico

MMMU 73.4%: excelente comprensión multimodal

Supera a GPT-4o en benchmarks de programación

17B de parámetros activos de 400B totales (128 expertos)

Comparación de benchmarks

Maverick vs Scout y generación anterior

La arquitectura de 128 expertos de Maverick ofrece mejoras significativas sobre Scout y Llama 3.1 en todas las categorías.

Benchmark
Llama 4 Maverick
128 expertos
Destacado
Llama 4 Scout
16 expertos
Llama 3.1 70B
Denso
GPT-4o
Propietario
MMLU Pro
Conocimiento y razonamiento
80.5%74.3%66.4%78.4%
GPQA Diamond
Conocimiento científico
69.8%57.2%46.7%53.6%
LiveCodeBench v5
Programación
43.4%32.8%28.5%37.0%
MMMU
Multimodal
73.4%69.4%-69.1%
Context Window
Tokens máximos
1M10M128K128K
Total Parameters
Tamaño del modelo
400B109B70B-
Active Parameters
Por token
17B17B70B-

Datos del model card oficial de Meta y evaluaciones independientes.

Escala de 128 expertos

Cómo Llama 4 Maverick ofrece capacidad de 400B al costo de 17B

La arquitectura MoE de 128 expertos de Llama 4 Maverick es un escalado significativo respecto a los 16 expertos de Scout. Cada token se enruta a expertos especializados, dando al modelo acceso a 400B de parámetros de conocimiento mientras solo activa 17B por pasada. Este diseño permite calidad de nivel frontera sin requisitos computacionales de nivel frontera.

  • 128 expertos vs los 16 de Scout para 8x más especialización por token
  • 400B de parámetros totales vs los 109B de Scout para mayor capacidad de conocimiento
  • Mismo costo de 17B de parámetros activos por token que Scout para inferencia eficiente
  • Cada experto desarrolla especialización profunda en su dominio durante el entrenamiento
  • El enrutamiento disperso asegura la selección óptima de expertos para cada entrada
Llama 4 Maverick 128-expert MoE architecture

Multimodal

Comprensión nativa de imágenes en Llama 4 Maverick

Llama 4 Maverick usa arquitectura de fusión temprana para procesar texto e imágenes juntos de forma nativa. La comprensión visual está integrada en el modelo desde su base, no añadida como un módulo separado. Esto resulta en un razonamiento fluido entre ambas modalidades con un sólido rendimiento en benchmarks visuales.

  • 73.4% en el benchmark multimodal MMMU, superando el 69.1% de GPT-4o
  • Arquitectura de fusión temprana para procesamiento multimodal nativo sin pipelines separados
  • Analiza capturas de pantalla, diagramas, gráficos y documentos técnicos con precisión
  • Combina análisis visual con generación de código para flujos de desarrollo de UI
  • Procesa documentos de contenido mixto con texto e imágenes incrustadas
Llama 4 Maverick multimodal capabilities

Programación

Programación y function calling con Llama 4 Maverick

Llama 4 Maverick supera a GPT-4o en benchmarks de programación e incluye function calling nativo para construir flujos de trabajo de agentes autónomos. Ya sea que necesites generar código de producción, depurar problemas complejos o construir agentes que usen herramientas, la arquitectura de 128 expertos proporciona conocimiento especializado en lenguajes de programación y frameworks.

  • 43.4% en LiveCodeBench v5, superando el 37.0% de GPT-4o en el mismo benchmark
  • Function calling nativo permite flujos de trabajo de agentes autónomos sin fine-tuning
  • Genera código listo para producción en Python, JavaScript, TypeScript, Rust y más
  • Depura problemas complejos multi-archivo con conciencia completa del contexto de tu código
  • Encadena múltiples llamadas a herramientas para automatización de tareas de extremo a extremo en aplicaciones agénticas

Descargar y desplegar

Despliegue auto-alojado

Descarga los pesos oficiales del modelo para despliegue en tu infraestructura.

FAQ

Preguntas frecuentes sobre Llama 4 Maverick

Respuestas a las preguntas más comunes sobre rendimiento, despliegue y uso práctico de Llama 4 Maverick.

¿Llama 4 Maverick realmente supera a GPT-4o en benchmarks?

Sí. Llama 4 Maverick supera a GPT-4o en varios benchmarks clave. Obtiene 80.5% en MMLU Pro comparado con el 78.4% de GPT-4o, 69.8% en GPQA Diamond versus 53.6%, y 43.4% en LiveCodeBench v5 versus 37.0%. En tareas multimodales, alcanza 73.4% en MMMU comparado con el 69.1% de GPT-4o. Estos resultados provienen de las evaluaciones oficiales de Meta y pruebas independientes.

¿Cuántas GPUs necesitas para ejecutar Llama 4 Maverick?

Ejecutar Llama 4 Maverick a precisión completa requiere aproximadamente 800 GB de VRAM, lo que típicamente significa un clúster de 8 o más GPUs A100 de 80 GB. Con cuantización INT8, puedes reducir esto a unos 400 GB (aproximadamente 5 GPUs A100). La cuantización INT4 lo reduce aún más a aproximadamente 200 GB. Los proveedores de nube también ofrecen acceso API alojado si el despliegue local no es práctico para tu configuración.

¿Qué hace especial la arquitectura de 128 expertos de Llama 4 Maverick?

La arquitectura mixture of experts de 128 expertos permite a Llama 4 Maverick almacenar 400B de parámetros de conocimiento mientras solo activa 17B por token durante la inferencia. Cada experto desarrolla una especialización profunda durante el entrenamiento, así que el mecanismo de enrutamiento puede seleccionar los expertos más relevantes para cada entrada. Esto le da al modelo la profundidad de conocimiento de un modelo denso de 400B a una fracción del costo computacional.

¿Puedo usar Llama 4 Maverick para proyectos comerciales?

Sí. Llama 4 Maverick se publica bajo la licencia compatible con Llama 3.1, que permite uso comercial. Puedes construir productos, desplegar servicios y hacer fine-tuning del modelo para tus necesidades de negocio específicas. La licencia incluye umbrales de uso para despliegues a muy gran escala, así que revisa los términos completos si tu aplicación sirve a cientos de millones de usuarios activos mensuales.

¿Cómo maneja Llama 4 Maverick la comprensión de imágenes?

Llama 4 Maverick usa arquitectura de fusión temprana, lo que significa que la comprensión de imágenes está integrada en el modelo desde su base en lugar de añadirse como un codificador de visión separado. Procesa texto e imágenes en un flujo unificado, permitiendo un razonamiento natural entre ambas modalidades. Obtiene 73.4% en MMMU, demostrando un sólido rendimiento en tareas que requieren comprender gráficos, diagramas, capturas de pantalla y documentos.

¿Cuál es la mejor forma de acceder a Llama 4 Maverick a través de una API?

Varios proveedores de nube ofrecen acceso API alojado a Llama 4 Maverick, incluyendo servicios en AWS, Google Cloud, Azure y plataformas de inferencia especializadas como Together AI, Fireworks y Groq. También puedes auto-alojarlo usando frameworks como vLLM o TGI. Para experimentación rápida, la interfaz de chat en este sitio ejecuta Llama 4 Maverick como modelo predeterminado sin necesidad de configuración.

Familia Llama 4

Explora la línea completa de Llama 4

Maverick es el modelo insignia abierto de Meta. Compáralo con Scout y ve cómo se posiciona frente a otros modelos de frontera.

Llama 4 Scout

Especialista en ventana de contexto de 10M

Comparar

Todos los modelos Llama 4

Resumen completo de la familia

Ver todos

Llama 4 vs Kimi K2.6

Maverick vs el modelo de 1T de Moonshot

Comparar

Llama 4 vs Qwen 3.6

Meta vs lo último de Alibaba

Comparar

Llama 4 vs DeepSeek V4

Duelo de arquitecturas MoE

Comparar

Llama 4 vs MiniMax M2.7

Escala vs eficiencia de costo

Comparar

Comenzar

¿Listo para probar Llama 4 Maverick?

Empieza a chatear gratis al instante. Maverick es el modelo predeterminado en este sitio, sin necesidad de configuración.