Modelos Llama 4

Dos modelos, una familia: de contexto largo a calidad de frontera

Los modelos Llama 4 representan el lanzamiento de pesos abiertos más ambicioso de Meta hasta la fecha. Esta familia presenta dos arquitecturas mixture of experts diseñadas para diferentes prioridades: Scout maneja contexto masivo con una ventana de 10 millones de tokens y 16 expertos, mientras que Maverick ofrece calidad de nivel frontera a través de 128 expertos y 400B de parámetros totales. Ambos comparten 17B de parámetros activos por token y soporte multimodal nativo, dándote la flexibilidad de elegir el equilibrio adecuado entre longitud de contexto y calidad de salida para tu flujo de trabajo específico.

Iniciar chat Comparar modelos

Todos los modelos

Elige la opción correcta entre los modelos Llama 4

Scout y Maverick están optimizados para escenarios diferentes. Entender sus fortalezas te ayuda a elegir la variante que se ajusta a tu carga de trabajo, ya sea procesar repositorios completos o generar razonamiento y código de la más alta calidad.

Llama 4 Scout

Ventana de contexto de 10M: el especialista en contexto largo

109B de parámetros totales en 16 expertos con 17B activos por token. Su característica destacada es la ventana de contexto de 10 millones de tokens, la más larga de cualquier modelo abierto disponible. Scout sobresale cuando tu tarea requiere ingerir grandes volúmenes de información a la vez, desde repositorios completos hasta colecciones de investigación con múltiples documentos. Las pruebas needle-in-a-haystack confirman un 95% de precisión de recuperación hasta 8 millones de tokens.

Elige Scout cuando necesites procesar repositorios completos, conjuntos de investigación con múltiples documentos o historiales de conversación muy largos en una sola llamada. Es la mejor opción cuando la longitud del contexto importa más que diferencias marginales de calidad.

Probar Scout Más información

Llama 4 Maverick

128 expertos, 400B de parámetros: el modelo insignia de calidad

400B de parámetros totales en 128 expertos con 17B activos por token. Maverick supera a GPT-4o en benchmarks clave incluyendo MMLU Pro, GPQA Diamond y LiveCodeBench. La arquitectura de 128 expertos proporciona especialización profunda en todos los dominios, convirtiéndolo en el modelo de pesos abiertos más fuerte disponible para razonamiento, programación y tareas multimodales. Ofrece una ventana de contexto de 1M de tokens para la mayoría de necesidades de producción.

Elige Maverick cuando necesites máxima calidad para razonamiento, programación, análisis multimodal y tareas complejas. Es el modelo de chat predeterminado en este sitio por una buena razón.

Probar Maverick Más información

Contexto largo

Llama 4 Scout

109B totales, 17B activos, 16 expertos. Ventana de contexto de 10M de tokens.

Ideal para: repositorios completos, análisis multi-documento, artículos de investigación largos, conversaciones extendidas.

Disponible ahora

Más información Descargar

Insignia

Llama 4 Maverick

400B totales, 17B activos, 128 expertos. Supera a GPT-4o en benchmarks.

Ideal para: razonamiento complejo, generación de código, tareas multimodales, síntesis de investigación.

Disponible ahora

Más información Descargar

Capacidades compartidas

Qué pueden hacer todos los modelos Llama 4

Scout y Maverick comparten un conjunto común de capacidades construidas sobre la arquitectura mixture of experts de Meta. Estas bases compartidas significan que puedes cambiar entre las dos variantes sin modificar tu código de integración.

Multimodal nativo

Ambos modelos Llama 4 procesan texto e imágenes de forma nativa con arquitectura de fusión temprana. La comprensión visual está integrada desde la base, no añadida como un codificador separado. Esto significa que puedes enviar contenido mixto, incluyendo capturas de pantalla, diagramas y documentos junto con texto, y obtener razonamiento coherente entre ambas modalidades.

Eficiencia MoE

Ambos modelos Llama 4 activan solo 17B de parámetros por token a pesar de sus grandes conteos de parámetros totales. Scout usa 16 expertos con 109B totales, Maverick usa 128 expertos con 400B totales. Esta estrategia de enrutamiento disperso ofrece un rendimiento sólido a una fracción del costo computacional de arquitecturas densas equivalentes.

Function calling

El function calling integrado en ambos modelos Llama 4 permite flujos de trabajo agénticos sin fine-tuning adicional. Define tus herramientas y el modelo decidirá cuándo y cómo llamarlas. Esto facilita la construcción de agentes autónomos que consultan bases de datos, llaman APIs, ejecutan código y encadenan operaciones.

Contexto extendido

Scout ofrece una ventana de contexto de 10M de tokens para tareas extremas con documentos largos, mientras que Maverick proporciona 1M de tokens para la mayoría de escenarios de producción. Ambos superan con creces el límite de 128K de los modelos de generación anterior, dándote espacio para incluir más contexto, más ejemplos y más historial en cada solicitud.

Multilingüe

El sólido soporte multilingüe en ambos modelos Llama 4 permite aplicaciones globales. Ya sea que tus usuarios se comuniquen en inglés, chino, español, francés u otros idiomas soportados, ambas variantes mantienen una calidad consistente con respuestas culturalmente conscientes.

Pesos abiertos

Ambos modelos Llama 4 son completamente de pesos abiertos bajo la licencia compatible con Llama 3.1. Despliega en cualquier lugar, modifica libremente y haz fine-tuning para tus necesidades específicas. Esta apertura significa sin dependencia de proveedor, total transparencia en el comportamiento del modelo y la capacidad de ejecutar completamente en tu propia infraestructura.

Guía rápida de selección

¿Cuál de los modelos Llama 4 deberías elegir?

Asocia tu caso de uso principal con la variante correcta.

Elige Scout cuando

Necesites procesar documentos muy largos (10M de tokens)
Análisis de repositorios completos en cientos de archivos
Investigación y síntesis multi-documento
Historiales de conversación extendidos
Menores requisitos de memoria (109B vs 400B totales)

Elige Maverick cuando

La máxima calidad sea la prioridad
Razonamiento complejo y tareas científicas
Generación y depuración de código
Análisis multimodal (capturas de pantalla, diagramas)
Tareas donde el rendimiento en benchmarks sea lo más importante

Iniciar chat Ver todos los benchmarks

Rendimiento

Comparación completa de benchmarks entre los modelos Llama 4

Scout optimiza para longitud de contexto, Maverick para calidad bruta. Ambos ofrecen un rendimiento sólido en relación con sus objetivos de diseño.

Elegir entre los modelos Llama 4 se reduce a tu necesidad principal. Si tu flujo de trabajo implica procesar grandes volúmenes de texto, código o documentos en una sola llamada, la ventana de contexto de 10M de tokens de Scout es inigualable. Si necesitas la mayor calidad posible para razonamiento, programación o tareas multimodales, la arquitectura de 128 expertos de Maverick ofrece resultados de nivel frontera que compiten con las mejores ofertas propietarias. Muchos equipos usan ambos: Maverick para tareas críticas en calidad y Scout para análisis a gran escala.

Iniciar chat Ver model card

Comparación de rendimiento de la familia Llama 4

Maverick: 80.5% MMLU Pro, 73.4% MMMU, supera a GPT-4o en programación

Scout: contexto de 10M de tokens, más del 95% de recuperación a 8M de tokens

Ambos: 17B de parámetros activos, multimodal nativo, function calling

Ambos: pesos abiertos bajo licencia compatible con Llama 3.1

Comparación completa

Scout vs Maverick lado a lado

Resultados completos de benchmarks en razonamiento, programación, multimodal y métricas de despliegue.

Benchmark	Maverick 128 expertos Insignia	Scout 16 expertos Contexto largo
MMLU Pro Conocimiento y razonamiento	80.5%	74.3%
GPQA Diamond Conocimiento científico	69.8%	57.2%
LiveCodeBench v5 Programación	43.4%	32.8%
MMMU Multimodal	73.4%	69.4%
Context Window Tokens máximos	1M	10M
Total Parameters Tamaño del modelo	400B	109B
Active Parameters Por token	17B	17B
Number of Experts Enrutamiento MoE	128	16

Datos del model card oficial de Meta y evaluaciones independientes.

Scout

Llama 4 Scout: cuando la longitud de contexto lo es todo

La ventana de contexto de 10M de tokens de Scout es inigualable entre los modelos Llama 4 y en todo el panorama de pesos abiertos. Puede procesar repositorios completos, conjuntos de investigación multi-documento y horas de transcripciones en una sola llamada. Si tu tarea implica entradas muy largas, Scout es la opción clara.

Contexto de 10M de tokens, el más largo de cualquier modelo abierto disponible hoy
Más del 95% de precisión de recuperación hasta 8M de tokens en pruebas needle-in-a-haystack
109B de parámetros totales en 16 expertos con 17B activos por token
Procesa repositorios completos de GitHub para revisión exhaustiva de código
Ideal para análisis de documentos legales, síntesis de investigación y flujos de auditoría

Probar Scout Detalles de Scout

Maverick

Llama 4 Maverick: cuando la calidad es la prioridad

La arquitectura de 128 expertos de Maverick ofrece rendimiento de nivel frontera que supera a GPT-4o en benchmarks clave. Es el modelo predeterminado en este sitio por una buena razón: maneja razonamiento complejo, programación y tareas multimodales con la calidad que esperarías de las mejores alternativas propietarias.

80.5% en MMLU Pro para conocimiento y razonamiento de nivel frontera
Supera a GPT-4o en benchmarks de programación con 43.4% en LiveCodeBench v5
400B de parámetros totales en 128 expertos para especialización profunda por dominio
73.4% en MMMU para sólida comprensión multimodal de imágenes y documentos
Function calling nativo para construir flujos de trabajo de agentes autónomos

Probar Maverick Detalles de Maverick

Guía de selección

Cómo elegir la opción correcta entre los modelos Llama 4

Elegir entre los modelos Llama 4 depende de lo que más importa para tu flujo de trabajo específico. Ambos comparten la misma huella de 17B de parámetros activos y soporte multimodal nativo, así que la decisión se reduce a longitud de contexto versus calidad de salida. Muchos equipos encuentran valor en usar ambas variantes para diferentes partes de su pipeline.

Elige Scout para tareas que requieran procesar más de 1 millón de tokens a la vez
Elige Maverick para tareas donde la calidad de salida y profundidad de razonamiento sean lo más importante
Ambos comparten 17B de parámetros activos, así que el costo de inferencia por token es comparable
Usa Scout para ingesta y análisis, luego Maverick para síntesis y generación
Ambos funcionan bajo la misma licencia de pesos abiertos, así que puedes desplegar uno o ambos libremente

Probar ahora

Empieza a chatear con Llama 4

Prueba ambos modelos al instante a través de nuestra interfaz de chat.

Iniciar chat

Chatea con los modelos Llama 4 al instante, sin configuración

Model card

Especificaciones técnicas completas para ambas variantes

Documentación

Guías de integración y mejores prácticas

Descargar

Obtener pesos del modelo

Descarga los pesos oficiales de cualquier variante de Llama 4.

Hugging Face

Todos los repositorios de modelos Llama 4

Ollama

Ejecuta cualquier variante localmente con Ollama

GitHub

Código fuente y ejemplos

FAQ

Preguntas frecuentes sobre los modelos Llama 4

Respuestas a las preguntas más comunes sobre cómo elegir, ejecutar y desplegar los modelos Llama 4 para tus proyectos.

¿Cuántos modelos Llama 4 están disponibles ahora mismo?

Actualmente hay dos modelos Llama 4: Scout y Maverick. Cada uno viene en dos variantes, una versión instruction-tuned optimizada para chat y completado de tareas, y una versión base pre-entrenada para fine-tuning e investigación. Eso te da cuatro checkpoints totales para elegir dependiendo de si necesitas un modelo conversacional listo para usar o una base para entrenamiento personalizado.

¿Cuál modelo Llama 4 es mejor para tareas de programación?

Maverick es la opción más fuerte para tareas de programación. Obtiene 43.4% en LiveCodeBench v5, superando tanto a Scout (32.8%) como a GPT-4o (37.0%). La arquitectura de 128 expertos proporciona especialización profunda en lenguajes de programación y frameworks. Sin embargo, si necesitas analizar un repositorio grande completo a la vez, la ventana de contexto de 10M de tokens de Scout te permite cargar todo en una sola llamada para análisis entre archivos.

¿Puedo ejecutar algún modelo Llama 4 en una GPU de consumo?

Ejecutar las versiones completas requiere configuraciones multi-GPU. Scout necesita aproximadamente 220 GB de VRAM a precisión completa, y Maverick necesita alrededor de 800 GB. Sin embargo, las versiones cuantizadas reducen significativamente estos requisitos. Scout con cuantización INT4 puede caber en aproximadamente 55 GB, lo cual es alcanzable con GPUs de consumo de gama alta. Maverick con INT4 aún necesita alrededor de 200 GB, haciéndolo más adecuado para hardware de nube o empresarial.

¿Cuál es la diferencia entre Scout y Maverick en la familia Llama 4?

Scout está optimizado para tareas de contexto largo con una ventana de 10M de tokens y 16 expertos (109B de parámetros totales). Maverick prioriza la calidad de salida con 128 expertos y 400B de parámetros totales pero tiene una ventana de contexto de 1M de tokens. Ambos activan 17B de parámetros por token. Piensa en Scout como el gran angular y Maverick como el lente de alta resolución en el mismo sistema de cámara.

¿Todos los modelos Llama 4 son gratuitos y de pesos abiertos?

Sí. Todos los modelos Llama 4 se publican bajo la licencia compatible con Llama 3.1, que permite uso comercial, fine-tuning y redistribución. Puedes desplegarlos en tu propia infraestructura, construir productos sobre ellos y modificar los pesos para tus necesidades específicas. La licencia incluye umbrales de uso para despliegues a muy gran escala que sirven a cientos de millones de usuarios.

¿Qué modelo Llama 4 debería elegir para análisis de documentos?

Depende del volumen y complejidad de tus documentos. Para analizar grandes colecciones de documentos, contratos o artículos de investigación en una sola pasada, la ventana de contexto de 10M de tokens de Scout es ideal. Para documentos más cortos donde necesitas la mayor calidad de extracción, resumen o razonamiento, la arquitectura de 128 expertos de Maverick produce resultados más matizados y precisos. Ambos soportan comprensión nativa de imágenes para documentos con gráficos, tablas y diagramas.

Familia Llama 4