Llama 4 Maverick

400B de parámetros, 128 expertos: el modelo abierto más capaz de Meta

Llama 4 Maverick es el primer modelo de pesos abiertos que supera consistentemente a GPT-4o en múltiples categorías de benchmarks. Con 400B de parámetros totales enrutados a través de 128 expertos especializados y solo 17B activos por token, ofrece razonamiento, programación y comprensión multimodal de nivel frontera sin el costo de una API propietaria. Ya sea que necesites generación avanzada de código, análisis científico o comprensión de imágenes, Llama 4 Maverick trae la calidad de los líderes de código cerrado a un paquete de pesos abiertos que puedes desplegar en cualquier lugar.

Iniciar chat Ver benchmarks

Variantes del modelo

Modelos instruction-tuned y base

Elige entre la variante instruction-tuned optimizada para chat y tareas complejas, o el modelo base para fine-tuning e investigación.

Arquitectura MoE de 128 expertos

400B de parámetros totales, 17B activos por token

Maverick escala a 128 expertos desde los 16 de Scout, empaquetando 400B de parámetros totales mientras mantiene la misma huella de 17B activos por token. Esto le da capacidades significativamente más fuertes en razonamiento, programación y multimodal.

El modelo de chat predeterminado en este sitio. Ideal para tareas que requieren máxima calidad: razonamiento complejo, generación de código, análisis multimodal y síntesis de investigación.

Iniciar chat Ver capacidades

Instruction-tuned

Maverick Instruct

Optimizado para IA conversacional, razonamiento complejo y generación de código

Ajustado con RLHF para seguir instrucciones y diálogo multi-turno

Disponible ahora

Iniciar chat Descargar pesos

Pre-entrenado

Maverick Base

Modelo MoE base para fine-tuning y aplicaciones especializadas

Pre-entrenado con datos multimodales diversos y enrutamiento de 128 expertos

Disponible ahora

Ver en HuggingFace Documentación

Capacidades

Rendimiento de frontera con Llama 4 Maverick

Llama 4 Maverick combina eficiencia MoE de 128 expertos con razonamiento avanzado, programación sólida y comprensión multimodal nativa. Cada capacidad está ajustada para máxima calidad con 17B de parámetros activos por token, convirtiéndolo en una alternativa práctica a los modelos propietarios de frontera.

MoE de 128 expertos

Enruta cada token a través de expertos especializados de un pool de 128. Los 400B de parámetros totales ofrecen calidad de frontera con solo 17B de costo de inferencia por token. Esta arquitectura permite que cada experto desarrolle una especialización profunda en dominios específicos, desde matemáticas hasta escritura creativa, resultando en una calidad consistentemente alta en tareas diversas.

Razonamiento avanzado

El sólido rendimiento en MMLU Pro (80.5%) y GPQA Diamond (69.8%) demuestra conocimiento profundo y razonamiento científico. Llama 4 Maverick maneja lógica multi-paso, demostraciones matemáticas y tareas analíticas complejas con una precisión que iguala o supera a las alternativas propietarias. La arquitectura de 128 expertos permite que diferentes expertos contribuyan conocimiento especializado en cada paso de razonamiento.

Generación de código

Supera a GPT-4o en benchmarks de programación incluyendo LiveCodeBench v5. Llama 4 Maverick genera código listo para producción en docenas de lenguajes de programación, depura problemas complejos y explica enfoques algorítmicos con claridad. El function calling nativo permite flujos de trabajo agénticos donde el modelo puede ejecutar código autónomamente, llamar APIs y encadenar operaciones con herramientas.

Contexto de 1M de tokens

Procesa documentos largos, repositorios y conversaciones extendidas dentro de una ventana de contexto de 1 millón de tokens. Mientras Scout ofrece 10M de tokens para tareas extremas de contexto largo, la ventana de 1M de Llama 4 Maverick es suficiente para la mayoría de casos de uso en producción, incluyendo análisis de proyectos completos, artículos de investigación extensos y conversaciones multi-turno que abarcan cientos de intercambios.

Multimodal nativo

La arquitectura de fusión temprana procesa texto e imágenes juntos de forma nativa desde su base. Analiza capturas de pantalla, diagramas, gráficos, dibujos técnicos y documentos junto con texto sin pipelines de visión separados. Llama 4 Maverick obtiene 73.4% en MMMU, demostrando un sólido razonamiento visual que rivaliza con modelos de visión dedicados.

Multilingüe

El sólido rendimiento en múltiples idiomas hace que Llama 4 Maverick sea adecuado para aplicaciones globales. El modelo maneja traducción, razonamiento entre idiomas y generación de contenido culturalmente matizado con calidad consistente. Ya sea que tus usuarios se comuniquen en inglés, chino, español, francés u otros idiomas soportados, la calidad de salida se mantiene alta.

Puntos clave

Por qué destaca Llama 4 Maverick

Llama 4 Maverick es el primer modelo de pesos abiertos que supera consistentemente a GPT-4o en múltiples categorías de benchmarks.

Destacados en benchmarks

MMLU Pro 80.5%: competitivo con modelos propietarios de frontera
GPQA Diamond 69.8%: sólido razonamiento científico
MMMU 73.4%: excelente comprensión multimodal
Supera a GPT-4o en benchmarks de programación
Arena ELO competitivo con modelos de primer nivel

Especificaciones técnicas

400B de parámetros totales, 17B activos por token
128 expertos en arquitectura MoE
Ventana de contexto de 1M de tokens
Multimodal nativo (texto + imagen)
Licencia compatible con Llama 3.1

Chat gratuito Descargar pesos

Rendimiento

Calidad de frontera con Llama 4 Maverick

Llama 4 Maverick alcanza 80.5% en MMLU Pro y 73.4% en MMMU, superando a GPT-4o en múltiples benchmarks mientras activa solo 17B de parámetros por token.

Los resultados de benchmarks cuentan una historia convincente, pero el rendimiento en el mundo real es donde Llama 4 Maverick realmente se demuestra. Los desarrolladores reportan que la calidad de generación de código rivaliza con los mejores modelos propietarios, con menos alucinaciones e implementaciones de funciones más precisas. Los investigadores encuentran que las tareas de razonamiento científico producen respuestas bien estructuradas y conscientes de citas. La arquitectura de 128 expertos permite que el modelo recurra a conocimiento profundamente especializado para cada subtarea, resultando en salidas que parecen venir de un experto en el dominio en lugar de un generalista.

Iniciar chat Ver model card

Gráfico comparativo de rendimiento de Llama 4 Maverick

MMLU Pro 80.5%: conocimiento y razonamiento de nivel frontera

GPQA Diamond 69.8%: sólido razonamiento científico

MMMU 73.4%: excelente comprensión multimodal

Supera a GPT-4o en benchmarks de programación

17B de parámetros activos de 400B totales (128 expertos)

Comparación de benchmarks

Maverick vs Scout y generación anterior

La arquitectura de 128 expertos de Maverick ofrece mejoras significativas sobre Scout y Llama 3.1 en todas las categorías.

Benchmark	Llama 4 Maverick 128 expertos Destacado	Llama 4 Scout 16 expertos	Llama 3.1 70B Denso	GPT-4o Propietario
MMLU Pro Conocimiento y razonamiento	80.5%	74.3%	66.4%	78.4%
GPQA Diamond Conocimiento científico	69.8%	57.2%	46.7%	53.6%
LiveCodeBench v5 Programación	43.4%	32.8%	28.5%	37.0%
MMMU Multimodal	73.4%	69.4%	-	69.1%
Context Window Tokens máximos	1M	10M	128K	128K
Total Parameters Tamaño del modelo	400B	109B	70B	-
Active Parameters Por token	17B	17B	70B	-

Datos del model card oficial de Meta y evaluaciones independientes.

Escala de 128 expertos

Cómo Llama 4 Maverick ofrece capacidad de 400B al costo de 17B

La arquitectura MoE de 128 expertos de Llama 4 Maverick es un escalado significativo respecto a los 16 expertos de Scout. Cada token se enruta a expertos especializados, dando al modelo acceso a 400B de parámetros de conocimiento mientras solo activa 17B por pasada. Este diseño permite calidad de nivel frontera sin requisitos computacionales de nivel frontera.

128 expertos vs los 16 de Scout para 8x más especialización por token
400B de parámetros totales vs los 109B de Scout para mayor capacidad de conocimiento
Mismo costo de 17B de parámetros activos por token que Scout para inferencia eficiente
Cada experto desarrolla especialización profunda en su dominio durante el entrenamiento
El enrutamiento disperso asegura la selección óptima de expertos para cada entrada

Iniciar chat Ver benchmarks

Llama 4 Maverick 128-expert MoE architecture

Multimodal

Comprensión nativa de imágenes en Llama 4 Maverick

Llama 4 Maverick usa arquitectura de fusión temprana para procesar texto e imágenes juntos de forma nativa. La comprensión visual está integrada en el modelo desde su base, no añadida como un módulo separado. Esto resulta en un razonamiento fluido entre ambas modalidades con un sólido rendimiento en benchmarks visuales.

73.4% en el benchmark multimodal MMMU, superando el 69.1% de GPT-4o
Arquitectura de fusión temprana para procesamiento multimodal nativo sin pipelines separados
Analiza capturas de pantalla, diagramas, gráficos y documentos técnicos con precisión
Combina análisis visual con generación de código para flujos de desarrollo de UI
Procesa documentos de contenido mixto con texto e imágenes incrustadas

Probar chat multimodal Más información

Llama 4 Maverick multimodal capabilities

Programación

Programación y function calling con Llama 4 Maverick

Llama 4 Maverick supera a GPT-4o en benchmarks de programación e incluye function calling nativo para construir flujos de trabajo de agentes autónomos. Ya sea que necesites generar código de producción, depurar problemas complejos o construir agentes que usen herramientas, la arquitectura de 128 expertos proporciona conocimiento especializado en lenguajes de programación y frameworks.

43.4% en LiveCodeBench v5, superando el 37.0% de GPT-4o en el mismo benchmark
Function calling nativo permite flujos de trabajo de agentes autónomos sin fine-tuning
Genera código listo para producción en Python, JavaScript, TypeScript, Rust y más
Depura problemas complejos multi-archivo con conciencia completa del contexto de tu código
Encadena múltiples llamadas a herramientas para automatización de tareas de extremo a extremo en aplicaciones agénticas

Comenzar

Prueba Llama 4 Maverick ahora

Empieza a chatear al instante o descarga los pesos para despliegue auto-alojado.

Chatear con Maverick

Prueba Llama 4 Maverick al instante, sin configuración

Model card

Especificaciones técnicas completas y benchmarks

Documentación

Guías de integración y mejores prácticas

Descargar y desplegar

Despliegue auto-alojado

Descarga los pesos oficiales del modelo para despliegue en tu infraestructura.

Hugging Face

Repositorio oficial del modelo Llama 4 Maverick

Ollama

Ejecuta localmente con Ollama

GitHub

Código fuente y ejemplos

FAQ

Preguntas frecuentes sobre Llama 4 Maverick

Respuestas a las preguntas más comunes sobre rendimiento, despliegue y uso práctico de Llama 4 Maverick.

¿Llama 4 Maverick realmente supera a GPT-4o en benchmarks?

Sí. Llama 4 Maverick supera a GPT-4o en varios benchmarks clave. Obtiene 80.5% en MMLU Pro comparado con el 78.4% de GPT-4o, 69.8% en GPQA Diamond versus 53.6%, y 43.4% en LiveCodeBench v5 versus 37.0%. En tareas multimodales, alcanza 73.4% en MMMU comparado con el 69.1% de GPT-4o. Estos resultados provienen de las evaluaciones oficiales de Meta y pruebas independientes.

¿Cuántas GPUs necesitas para ejecutar Llama 4 Maverick?

Ejecutar Llama 4 Maverick a precisión completa requiere aproximadamente 800 GB de VRAM, lo que típicamente significa un clúster de 8 o más GPUs A100 de 80 GB. Con cuantización INT8, puedes reducir esto a unos 400 GB (aproximadamente 5 GPUs A100). La cuantización INT4 lo reduce aún más a aproximadamente 200 GB. Los proveedores de nube también ofrecen acceso API alojado si el despliegue local no es práctico para tu configuración.

¿Qué hace especial la arquitectura de 128 expertos de Llama 4 Maverick?

La arquitectura mixture of experts de 128 expertos permite a Llama 4 Maverick almacenar 400B de parámetros de conocimiento mientras solo activa 17B por token durante la inferencia. Cada experto desarrolla una especialización profunda durante el entrenamiento, así que el mecanismo de enrutamiento puede seleccionar los expertos más relevantes para cada entrada. Esto le da al modelo la profundidad de conocimiento de un modelo denso de 400B a una fracción del costo computacional.

¿Puedo usar Llama 4 Maverick para proyectos comerciales?

Sí. Llama 4 Maverick se publica bajo la licencia compatible con Llama 3.1, que permite uso comercial. Puedes construir productos, desplegar servicios y hacer fine-tuning del modelo para tus necesidades de negocio específicas. La licencia incluye umbrales de uso para despliegues a muy gran escala, así que revisa los términos completos si tu aplicación sirve a cientos de millones de usuarios activos mensuales.

¿Cómo maneja Llama 4 Maverick la comprensión de imágenes?

Llama 4 Maverick usa arquitectura de fusión temprana, lo que significa que la comprensión de imágenes está integrada en el modelo desde su base en lugar de añadirse como un codificador de visión separado. Procesa texto e imágenes en un flujo unificado, permitiendo un razonamiento natural entre ambas modalidades. Obtiene 73.4% en MMMU, demostrando un sólido rendimiento en tareas que requieren comprender gráficos, diagramas, capturas de pantalla y documentos.

¿Cuál es la mejor forma de acceder a Llama 4 Maverick a través de una API?

Varios proveedores de nube ofrecen acceso API alojado a Llama 4 Maverick, incluyendo servicios en AWS, Google Cloud, Azure y plataformas de inferencia especializadas como Together AI, Fireworks y Groq. También puedes auto-alojarlo usando frameworks como vLLM o TGI. Para experimentación rápida, la interfaz de chat en este sitio ejecuta Llama 4 Maverick como modelo predeterminado sin necesidad de configuración.

Familia Llama 4