Modelos Llama 4

Dos modelos, una familia: de contexto largo a calidad de frontera

Los modelos Llama 4 representan el lanzamiento de pesos abiertos más ambicioso de Meta hasta la fecha. Esta familia presenta dos arquitecturas mixture of experts diseñadas para diferentes prioridades: Scout maneja contexto masivo con una ventana de 10 millones de tokens y 16 expertos, mientras que Maverick ofrece calidad de nivel frontera a través de 128 expertos y 400B de parámetros totales. Ambos comparten 17B de parámetros activos por token y soporte multimodal nativo, dándote la flexibilidad de elegir el equilibrio adecuado entre longitud de contexto y calidad de salida para tu flujo de trabajo específico.

Todos los modelos

Elige la opción correcta entre los modelos Llama 4

Scout y Maverick están optimizados para escenarios diferentes. Entender sus fortalezas te ayuda a elegir la variante que se ajusta a tu carga de trabajo, ya sea procesar repositorios completos o generar razonamiento y código de la más alta calidad.

Llama 4 Scout

Ventana de contexto de 10M: el especialista en contexto largo

109B de parámetros totales en 16 expertos con 17B activos por token. Su característica destacada es la ventana de contexto de 10 millones de tokens, la más larga de cualquier modelo abierto disponible. Scout sobresale cuando tu tarea requiere ingerir grandes volúmenes de información a la vez, desde repositorios completos hasta colecciones de investigación con múltiples documentos. Las pruebas needle-in-a-haystack confirman un 95% de precisión de recuperación hasta 8 millones de tokens.

Elige Scout cuando necesites procesar repositorios completos, conjuntos de investigación con múltiples documentos o historiales de conversación muy largos en una sola llamada. Es la mejor opción cuando la longitud del contexto importa más que diferencias marginales de calidad.

Llama 4 Maverick

128 expertos, 400B de parámetros: el modelo insignia de calidad

400B de parámetros totales en 128 expertos con 17B activos por token. Maverick supera a GPT-4o en benchmarks clave incluyendo MMLU Pro, GPQA Diamond y LiveCodeBench. La arquitectura de 128 expertos proporciona especialización profunda en todos los dominios, convirtiéndolo en el modelo de pesos abiertos más fuerte disponible para razonamiento, programación y tareas multimodales. Ofrece una ventana de contexto de 1M de tokens para la mayoría de necesidades de producción.

Elige Maverick cuando necesites máxima calidad para razonamiento, programación, análisis multimodal y tareas complejas. Es el modelo de chat predeterminado en este sitio por una buena razón.

Contexto largo

Llama 4 Scout

109B totales, 17B activos, 16 expertos. Ventana de contexto de 10M de tokens.

Ideal para: repositorios completos, análisis multi-documento, artículos de investigación largos, conversaciones extendidas.

Disponible ahora

Insignia

Llama 4 Maverick

400B totales, 17B activos, 128 expertos. Supera a GPT-4o en benchmarks.

Ideal para: razonamiento complejo, generación de código, tareas multimodales, síntesis de investigación.

Disponible ahora

Capacidades compartidas

Qué pueden hacer todos los modelos Llama 4

Scout y Maverick comparten un conjunto común de capacidades construidas sobre la arquitectura mixture of experts de Meta. Estas bases compartidas significan que puedes cambiar entre las dos variantes sin modificar tu código de integración.

Multimodal nativo

Ambos modelos Llama 4 procesan texto e imágenes de forma nativa con arquitectura de fusión temprana. La comprensión visual está integrada desde la base, no añadida como un codificador separado. Esto significa que puedes enviar contenido mixto, incluyendo capturas de pantalla, diagramas y documentos junto con texto, y obtener razonamiento coherente entre ambas modalidades.

Eficiencia MoE

Ambos modelos Llama 4 activan solo 17B de parámetros por token a pesar de sus grandes conteos de parámetros totales. Scout usa 16 expertos con 109B totales, Maverick usa 128 expertos con 400B totales. Esta estrategia de enrutamiento disperso ofrece un rendimiento sólido a una fracción del costo computacional de arquitecturas densas equivalentes.

Function calling

El function calling integrado en ambos modelos Llama 4 permite flujos de trabajo agénticos sin fine-tuning adicional. Define tus herramientas y el modelo decidirá cuándo y cómo llamarlas. Esto facilita la construcción de agentes autónomos que consultan bases de datos, llaman APIs, ejecutan código y encadenan operaciones.

Contexto extendido

Scout ofrece una ventana de contexto de 10M de tokens para tareas extremas con documentos largos, mientras que Maverick proporciona 1M de tokens para la mayoría de escenarios de producción. Ambos superan con creces el límite de 128K de los modelos de generación anterior, dándote espacio para incluir más contexto, más ejemplos y más historial en cada solicitud.

Multilingüe

El sólido soporte multilingüe en ambos modelos Llama 4 permite aplicaciones globales. Ya sea que tus usuarios se comuniquen en inglés, chino, español, francés u otros idiomas soportados, ambas variantes mantienen una calidad consistente con respuestas culturalmente conscientes.

Pesos abiertos

Ambos modelos Llama 4 son completamente de pesos abiertos bajo la licencia compatible con Llama 3.1. Despliega en cualquier lugar, modifica libremente y haz fine-tuning para tus necesidades específicas. Esta apertura significa sin dependencia de proveedor, total transparencia en el comportamiento del modelo y la capacidad de ejecutar completamente en tu propia infraestructura.

Guía rápida de selección

¿Cuál de los modelos Llama 4 deberías elegir?

Asocia tu caso de uso principal con la variante correcta.

Elige Scout cuando

  • Necesites procesar documentos muy largos (10M de tokens)
  • Análisis de repositorios completos en cientos de archivos
  • Investigación y síntesis multi-documento
  • Historiales de conversación extendidos
  • Menores requisitos de memoria (109B vs 400B totales)

Elige Maverick cuando

  • La máxima calidad sea la prioridad
  • Razonamiento complejo y tareas científicas
  • Generación y depuración de código
  • Análisis multimodal (capturas de pantalla, diagramas)
  • Tareas donde el rendimiento en benchmarks sea lo más importante

Rendimiento

Comparación completa de benchmarks entre los modelos Llama 4

Scout optimiza para longitud de contexto, Maverick para calidad bruta. Ambos ofrecen un rendimiento sólido en relación con sus objetivos de diseño.

Elegir entre los modelos Llama 4 se reduce a tu necesidad principal. Si tu flujo de trabajo implica procesar grandes volúmenes de texto, código o documentos en una sola llamada, la ventana de contexto de 10M de tokens de Scout es inigualable. Si necesitas la mayor calidad posible para razonamiento, programación o tareas multimodales, la arquitectura de 128 expertos de Maverick ofrece resultados de nivel frontera que compiten con las mejores ofertas propietarias. Muchos equipos usan ambos: Maverick para tareas críticas en calidad y Scout para análisis a gran escala.

Comparación de rendimiento de la familia Llama 4

Maverick: 80.5% MMLU Pro, 73.4% MMMU, supera a GPT-4o en programación

Scout: contexto de 10M de tokens, más del 95% de recuperación a 8M de tokens

Ambos: 17B de parámetros activos, multimodal nativo, function calling

Ambos: pesos abiertos bajo licencia compatible con Llama 3.1

Comparación completa

Scout vs Maverick lado a lado

Resultados completos de benchmarks en razonamiento, programación, multimodal y métricas de despliegue.

Benchmark
Maverick
128 expertos
Insignia
Scout
16 expertos
Contexto largo
MMLU Pro
Conocimiento y razonamiento
80.5%74.3%
GPQA Diamond
Conocimiento científico
69.8%57.2%
LiveCodeBench v5
Programación
43.4%32.8%
MMMU
Multimodal
73.4%69.4%
Context Window
Tokens máximos
1M10M
Total Parameters
Tamaño del modelo
400B109B
Active Parameters
Por token
17B17B
Number of Experts
Enrutamiento MoE
12816

Datos del model card oficial de Meta y evaluaciones independientes.

Scout

Llama 4 Scout: cuando la longitud de contexto lo es todo

La ventana de contexto de 10M de tokens de Scout es inigualable entre los modelos Llama 4 y en todo el panorama de pesos abiertos. Puede procesar repositorios completos, conjuntos de investigación multi-documento y horas de transcripciones en una sola llamada. Si tu tarea implica entradas muy largas, Scout es la opción clara.

  • Contexto de 10M de tokens, el más largo de cualquier modelo abierto disponible hoy
  • Más del 95% de precisión de recuperación hasta 8M de tokens en pruebas needle-in-a-haystack
  • 109B de parámetros totales en 16 expertos con 17B activos por token
  • Procesa repositorios completos de GitHub para revisión exhaustiva de código
  • Ideal para análisis de documentos legales, síntesis de investigación y flujos de auditoría
Llama 4 Scout - long context specialist

Maverick

Llama 4 Maverick: cuando la calidad es la prioridad

La arquitectura de 128 expertos de Maverick ofrece rendimiento de nivel frontera que supera a GPT-4o en benchmarks clave. Es el modelo predeterminado en este sitio por una buena razón: maneja razonamiento complejo, programación y tareas multimodales con la calidad que esperarías de las mejores alternativas propietarias.

  • 80.5% en MMLU Pro para conocimiento y razonamiento de nivel frontera
  • Supera a GPT-4o en benchmarks de programación con 43.4% en LiveCodeBench v5
  • 400B de parámetros totales en 128 expertos para especialización profunda por dominio
  • 73.4% en MMMU para sólida comprensión multimodal de imágenes y documentos
  • Function calling nativo para construir flujos de trabajo de agentes autónomos
Llama 4 Maverick - frontier quality

Guía de selección

Cómo elegir la opción correcta entre los modelos Llama 4

Elegir entre los modelos Llama 4 depende de lo que más importa para tu flujo de trabajo específico. Ambos comparten la misma huella de 17B de parámetros activos y soporte multimodal nativo, así que la decisión se reduce a longitud de contexto versus calidad de salida. Muchos equipos encuentran valor en usar ambas variantes para diferentes partes de su pipeline.

  • Elige Scout para tareas que requieran procesar más de 1 millón de tokens a la vez
  • Elige Maverick para tareas donde la calidad de salida y profundidad de razonamiento sean lo más importante
  • Ambos comparten 17B de parámetros activos, así que el costo de inferencia por token es comparable
  • Usa Scout para ingesta y análisis, luego Maverick para síntesis y generación
  • Ambos funcionan bajo la misma licencia de pesos abiertos, así que puedes desplegar uno o ambos libremente

Descargar

Obtener pesos del modelo

Descarga los pesos oficiales de cualquier variante de Llama 4.

FAQ

Preguntas frecuentes sobre los modelos Llama 4

Respuestas a las preguntas más comunes sobre cómo elegir, ejecutar y desplegar los modelos Llama 4 para tus proyectos.

¿Cuántos modelos Llama 4 están disponibles ahora mismo?

Actualmente hay dos modelos Llama 4: Scout y Maverick. Cada uno viene en dos variantes, una versión instruction-tuned optimizada para chat y completado de tareas, y una versión base pre-entrenada para fine-tuning e investigación. Eso te da cuatro checkpoints totales para elegir dependiendo de si necesitas un modelo conversacional listo para usar o una base para entrenamiento personalizado.

¿Cuál modelo Llama 4 es mejor para tareas de programación?

Maverick es la opción más fuerte para tareas de programación. Obtiene 43.4% en LiveCodeBench v5, superando tanto a Scout (32.8%) como a GPT-4o (37.0%). La arquitectura de 128 expertos proporciona especialización profunda en lenguajes de programación y frameworks. Sin embargo, si necesitas analizar un repositorio grande completo a la vez, la ventana de contexto de 10M de tokens de Scout te permite cargar todo en una sola llamada para análisis entre archivos.

¿Puedo ejecutar algún modelo Llama 4 en una GPU de consumo?

Ejecutar las versiones completas requiere configuraciones multi-GPU. Scout necesita aproximadamente 220 GB de VRAM a precisión completa, y Maverick necesita alrededor de 800 GB. Sin embargo, las versiones cuantizadas reducen significativamente estos requisitos. Scout con cuantización INT4 puede caber en aproximadamente 55 GB, lo cual es alcanzable con GPUs de consumo de gama alta. Maverick con INT4 aún necesita alrededor de 200 GB, haciéndolo más adecuado para hardware de nube o empresarial.

¿Cuál es la diferencia entre Scout y Maverick en la familia Llama 4?

Scout está optimizado para tareas de contexto largo con una ventana de 10M de tokens y 16 expertos (109B de parámetros totales). Maverick prioriza la calidad de salida con 128 expertos y 400B de parámetros totales pero tiene una ventana de contexto de 1M de tokens. Ambos activan 17B de parámetros por token. Piensa en Scout como el gran angular y Maverick como el lente de alta resolución en el mismo sistema de cámara.

¿Todos los modelos Llama 4 son gratuitos y de pesos abiertos?

Sí. Todos los modelos Llama 4 se publican bajo la licencia compatible con Llama 3.1, que permite uso comercial, fine-tuning y redistribución. Puedes desplegarlos en tu propia infraestructura, construir productos sobre ellos y modificar los pesos para tus necesidades específicas. La licencia incluye umbrales de uso para despliegues a muy gran escala que sirven a cientos de millones de usuarios.

¿Qué modelo Llama 4 debería elegir para análisis de documentos?

Depende del volumen y complejidad de tus documentos. Para analizar grandes colecciones de documentos, contratos o artículos de investigación en una sola pasada, la ventana de contexto de 10M de tokens de Scout es ideal. Para documentos más cortos donde necesitas la mayor calidad de extracción, resumen o razonamiento, la arquitectura de 128 expertos de Maverick produce resultados más matizados y precisos. Ambos soportan comprensión nativa de imágenes para documentos con gráficos, tablas y diagramas.

Familia Llama 4

Explora cada modelo y compara con competidores

Profundiza en cada variante o ve cómo los modelos Llama 4 se comparan con otros modelos abiertos de frontera.

Llama 4 Scout

Especialista en ventana de contexto de 10M

Explorar

Llama 4 Maverick

Modelo insignia de 128 expertos

Explorar

Llama 4 vs Kimi K2.6

Meta vs Moonshot en comparación

Comparar

Llama 4 vs Qwen 3.6

Meta vs Alibaba en comparación

Comparar

Llama 4 vs DeepSeek V4

Duelo de arquitecturas MoE

Comparar

Llama 4 vs MiniMax M2.7

Escala vs eficiencia

Comparar

Comenzar

Encuentra tu opción ideal entre los modelos Llama 4

Empieza a chatear con cualquier variante gratis, o descarga los pesos para despliegue local. Ambos son de pesos abiertos y están listos para usar.