Modelos Llama 4
Dos modelos, una familia: de contexto largo a calidad de frontera
Los modelos Llama 4 representan el lanzamiento de pesos abiertos más ambicioso de Meta hasta la fecha. Esta familia presenta dos arquitecturas mixture of experts diseñadas para diferentes prioridades: Scout maneja contexto masivo con una ventana de 10 millones de tokens y 16 expertos, mientras que Maverick ofrece calidad de nivel frontera a través de 128 expertos y 400B de parámetros totales. Ambos comparten 17B de parámetros activos por token y soporte multimodal nativo, dándote la flexibilidad de elegir el equilibrio adecuado entre longitud de contexto y calidad de salida para tu flujo de trabajo específico.
Todos los modelos
Elige la opción correcta entre los modelos Llama 4
Scout y Maverick están optimizados para escenarios diferentes. Entender sus fortalezas te ayuda a elegir la variante que se ajusta a tu carga de trabajo, ya sea procesar repositorios completos o generar razonamiento y código de la más alta calidad.
Llama 4 Scout
Ventana de contexto de 10M: el especialista en contexto largo
109B de parámetros totales en 16 expertos con 17B activos por token. Su característica destacada es la ventana de contexto de 10 millones de tokens, la más larga de cualquier modelo abierto disponible. Scout sobresale cuando tu tarea requiere ingerir grandes volúmenes de información a la vez, desde repositorios completos hasta colecciones de investigación con múltiples documentos. Las pruebas needle-in-a-haystack confirman un 95% de precisión de recuperación hasta 8 millones de tokens.
Elige Scout cuando necesites procesar repositorios completos, conjuntos de investigación con múltiples documentos o historiales de conversación muy largos en una sola llamada. Es la mejor opción cuando la longitud del contexto importa más que diferencias marginales de calidad.
Llama 4 Maverick
128 expertos, 400B de parámetros: el modelo insignia de calidad
400B de parámetros totales en 128 expertos con 17B activos por token. Maverick supera a GPT-4o en benchmarks clave incluyendo MMLU Pro, GPQA Diamond y LiveCodeBench. La arquitectura de 128 expertos proporciona especialización profunda en todos los dominios, convirtiéndolo en el modelo de pesos abiertos más fuerte disponible para razonamiento, programación y tareas multimodales. Ofrece una ventana de contexto de 1M de tokens para la mayoría de necesidades de producción.
Elige Maverick cuando necesites máxima calidad para razonamiento, programación, análisis multimodal y tareas complejas. Es el modelo de chat predeterminado en este sitio por una buena razón.
Contexto largo
Llama 4 Scout
109B totales, 17B activos, 16 expertos. Ventana de contexto de 10M de tokens.
Ideal para: repositorios completos, análisis multi-documento, artículos de investigación largos, conversaciones extendidas.
Insignia
Llama 4 Maverick
400B totales, 17B activos, 128 expertos. Supera a GPT-4o en benchmarks.
Ideal para: razonamiento complejo, generación de código, tareas multimodales, síntesis de investigación.
Capacidades compartidas
Qué pueden hacer todos los modelos Llama 4
Scout y Maverick comparten un conjunto común de capacidades construidas sobre la arquitectura mixture of experts de Meta. Estas bases compartidas significan que puedes cambiar entre las dos variantes sin modificar tu código de integración.
Multimodal nativo
Ambos modelos Llama 4 procesan texto e imágenes de forma nativa con arquitectura de fusión temprana. La comprensión visual está integrada desde la base, no añadida como un codificador separado. Esto significa que puedes enviar contenido mixto, incluyendo capturas de pantalla, diagramas y documentos junto con texto, y obtener razonamiento coherente entre ambas modalidades.
Eficiencia MoE
Ambos modelos Llama 4 activan solo 17B de parámetros por token a pesar de sus grandes conteos de parámetros totales. Scout usa 16 expertos con 109B totales, Maverick usa 128 expertos con 400B totales. Esta estrategia de enrutamiento disperso ofrece un rendimiento sólido a una fracción del costo computacional de arquitecturas densas equivalentes.
Function calling
El function calling integrado en ambos modelos Llama 4 permite flujos de trabajo agénticos sin fine-tuning adicional. Define tus herramientas y el modelo decidirá cuándo y cómo llamarlas. Esto facilita la construcción de agentes autónomos que consultan bases de datos, llaman APIs, ejecutan código y encadenan operaciones.
Contexto extendido
Scout ofrece una ventana de contexto de 10M de tokens para tareas extremas con documentos largos, mientras que Maverick proporciona 1M de tokens para la mayoría de escenarios de producción. Ambos superan con creces el límite de 128K de los modelos de generación anterior, dándote espacio para incluir más contexto, más ejemplos y más historial en cada solicitud.
Multilingüe
El sólido soporte multilingüe en ambos modelos Llama 4 permite aplicaciones globales. Ya sea que tus usuarios se comuniquen en inglés, chino, español, francés u otros idiomas soportados, ambas variantes mantienen una calidad consistente con respuestas culturalmente conscientes.
Pesos abiertos
Ambos modelos Llama 4 son completamente de pesos abiertos bajo la licencia compatible con Llama 3.1. Despliega en cualquier lugar, modifica libremente y haz fine-tuning para tus necesidades específicas. Esta apertura significa sin dependencia de proveedor, total transparencia en el comportamiento del modelo y la capacidad de ejecutar completamente en tu propia infraestructura.
Guía rápida de selección
¿Cuál de los modelos Llama 4 deberías elegir?
Asocia tu caso de uso principal con la variante correcta.
Elige Scout cuando
- Necesites procesar documentos muy largos (10M de tokens)
- Análisis de repositorios completos en cientos de archivos
- Investigación y síntesis multi-documento
- Historiales de conversación extendidos
- Menores requisitos de memoria (109B vs 400B totales)
Elige Maverick cuando
- La máxima calidad sea la prioridad
- Razonamiento complejo y tareas científicas
- Generación y depuración de código
- Análisis multimodal (capturas de pantalla, diagramas)
- Tareas donde el rendimiento en benchmarks sea lo más importante
Rendimiento
Comparación completa de benchmarks entre los modelos Llama 4
Scout optimiza para longitud de contexto, Maverick para calidad bruta. Ambos ofrecen un rendimiento sólido en relación con sus objetivos de diseño.
Elegir entre los modelos Llama 4 se reduce a tu necesidad principal. Si tu flujo de trabajo implica procesar grandes volúmenes de texto, código o documentos en una sola llamada, la ventana de contexto de 10M de tokens de Scout es inigualable. Si necesitas la mayor calidad posible para razonamiento, programación o tareas multimodales, la arquitectura de 128 expertos de Maverick ofrece resultados de nivel frontera que compiten con las mejores ofertas propietarias. Muchos equipos usan ambos: Maverick para tareas críticas en calidad y Scout para análisis a gran escala.
Maverick: 80.5% MMLU Pro, 73.4% MMMU, supera a GPT-4o en programación
Scout: contexto de 10M de tokens, más del 95% de recuperación a 8M de tokens
Ambos: 17B de parámetros activos, multimodal nativo, function calling
Ambos: pesos abiertos bajo licencia compatible con Llama 3.1
Comparación completa
Scout vs Maverick lado a lado
Resultados completos de benchmarks en razonamiento, programación, multimodal y métricas de despliegue.
| Benchmark | Maverick 128 expertos Insignia | Scout 16 expertos Contexto largo |
|---|---|---|
MMLU Pro Conocimiento y razonamiento | 80.5% | 74.3% |
GPQA Diamond Conocimiento científico | 69.8% | 57.2% |
LiveCodeBench v5 Programación | 43.4% | 32.8% |
MMMU Multimodal | 73.4% | 69.4% |
Context Window Tokens máximos | 1M | 10M |
Total Parameters Tamaño del modelo | 400B | 109B |
Active Parameters Por token | 17B | 17B |
Number of Experts Enrutamiento MoE | 128 | 16 |
Datos del model card oficial de Meta y evaluaciones independientes.
Scout
Llama 4 Scout: cuando la longitud de contexto lo es todo
La ventana de contexto de 10M de tokens de Scout es inigualable entre los modelos Llama 4 y en todo el panorama de pesos abiertos. Puede procesar repositorios completos, conjuntos de investigación multi-documento y horas de transcripciones en una sola llamada. Si tu tarea implica entradas muy largas, Scout es la opción clara.
- Contexto de 10M de tokens, el más largo de cualquier modelo abierto disponible hoy
- Más del 95% de precisión de recuperación hasta 8M de tokens en pruebas needle-in-a-haystack
- 109B de parámetros totales en 16 expertos con 17B activos por token
- Procesa repositorios completos de GitHub para revisión exhaustiva de código
- Ideal para análisis de documentos legales, síntesis de investigación y flujos de auditoría
Maverick
Llama 4 Maverick: cuando la calidad es la prioridad
La arquitectura de 128 expertos de Maverick ofrece rendimiento de nivel frontera que supera a GPT-4o en benchmarks clave. Es el modelo predeterminado en este sitio por una buena razón: maneja razonamiento complejo, programación y tareas multimodales con la calidad que esperarías de las mejores alternativas propietarias.
- 80.5% en MMLU Pro para conocimiento y razonamiento de nivel frontera
- Supera a GPT-4o en benchmarks de programación con 43.4% en LiveCodeBench v5
- 400B de parámetros totales en 128 expertos para especialización profunda por dominio
- 73.4% en MMMU para sólida comprensión multimodal de imágenes y documentos
- Function calling nativo para construir flujos de trabajo de agentes autónomos
Guía de selección
Cómo elegir la opción correcta entre los modelos Llama 4
Elegir entre los modelos Llama 4 depende de lo que más importa para tu flujo de trabajo específico. Ambos comparten la misma huella de 17B de parámetros activos y soporte multimodal nativo, así que la decisión se reduce a longitud de contexto versus calidad de salida. Muchos equipos encuentran valor en usar ambas variantes para diferentes partes de su pipeline.
- Elige Scout para tareas que requieran procesar más de 1 millón de tokens a la vez
- Elige Maverick para tareas donde la calidad de salida y profundidad de razonamiento sean lo más importante
- Ambos comparten 17B de parámetros activos, así que el costo de inferencia por token es comparable
- Usa Scout para ingesta y análisis, luego Maverick para síntesis y generación
- Ambos funcionan bajo la misma licencia de pesos abiertos, así que puedes desplegar uno o ambos libremente
Probar ahora
Empieza a chatear con Llama 4
Prueba ambos modelos al instante a través de nuestra interfaz de chat.
Descargar
Obtener pesos del modelo
Descarga los pesos oficiales de cualquier variante de Llama 4.
FAQ
Preguntas frecuentes sobre los modelos Llama 4
Respuestas a las preguntas más comunes sobre cómo elegir, ejecutar y desplegar los modelos Llama 4 para tus proyectos.
Actualmente hay dos modelos Llama 4: Scout y Maverick. Cada uno viene en dos variantes, una versión instruction-tuned optimizada para chat y completado de tareas, y una versión base pre-entrenada para fine-tuning e investigación. Eso te da cuatro checkpoints totales para elegir dependiendo de si necesitas un modelo conversacional listo para usar o una base para entrenamiento personalizado.
Maverick es la opción más fuerte para tareas de programación. Obtiene 43.4% en LiveCodeBench v5, superando tanto a Scout (32.8%) como a GPT-4o (37.0%). La arquitectura de 128 expertos proporciona especialización profunda en lenguajes de programación y frameworks. Sin embargo, si necesitas analizar un repositorio grande completo a la vez, la ventana de contexto de 10M de tokens de Scout te permite cargar todo en una sola llamada para análisis entre archivos.
Ejecutar las versiones completas requiere configuraciones multi-GPU. Scout necesita aproximadamente 220 GB de VRAM a precisión completa, y Maverick necesita alrededor de 800 GB. Sin embargo, las versiones cuantizadas reducen significativamente estos requisitos. Scout con cuantización INT4 puede caber en aproximadamente 55 GB, lo cual es alcanzable con GPUs de consumo de gama alta. Maverick con INT4 aún necesita alrededor de 200 GB, haciéndolo más adecuado para hardware de nube o empresarial.
Scout está optimizado para tareas de contexto largo con una ventana de 10M de tokens y 16 expertos (109B de parámetros totales). Maverick prioriza la calidad de salida con 128 expertos y 400B de parámetros totales pero tiene una ventana de contexto de 1M de tokens. Ambos activan 17B de parámetros por token. Piensa en Scout como el gran angular y Maverick como el lente de alta resolución en el mismo sistema de cámara.
Sí. Todos los modelos Llama 4 se publican bajo la licencia compatible con Llama 3.1, que permite uso comercial, fine-tuning y redistribución. Puedes desplegarlos en tu propia infraestructura, construir productos sobre ellos y modificar los pesos para tus necesidades específicas. La licencia incluye umbrales de uso para despliegues a muy gran escala que sirven a cientos de millones de usuarios.
Depende del volumen y complejidad de tus documentos. Para analizar grandes colecciones de documentos, contratos o artículos de investigación en una sola pasada, la ventana de contexto de 10M de tokens de Scout es ideal. Para documentos más cortos donde necesitas la mayor calidad de extracción, resumen o razonamiento, la arquitectura de 128 expertos de Maverick produce resultados más matizados y precisos. Ambos soportan comprensión nativa de imágenes para documentos con gráficos, tablas y diagramas.
Familia Llama 4
Explora cada modelo y compara con competidores
Profundiza en cada variante o ve cómo los modelos Llama 4 se comparan con otros modelos abiertos de frontera.
Comenzar
Encuentra tu opción ideal entre los modelos Llama 4
Empieza a chatear con cualquier variante gratis, o descarga los pesos para despliegue local. Ambos son de pesos abiertos y están listos para usar.