Llama 4 Scout

10 millones de tokens de contexto: la ventana más larga en cualquier modelo abierto

Llama 4 Scout redefine lo que una sola llamada a un modelo puede lograr. Construido sobre la arquitectura mixture of experts de Meta con 109B de parámetros totales y solo 17B activos por token, ofrece la ventana de contexto más larga de cualquier modelo abierto disponible: 10 millones de tokens. Carga un repositorio completo con cientos de archivos, una biblioteca de investigación con docenas de artículos o horas de transcripciones de reuniones. Donde otros modelos te obligan a fragmentar y resumir, Llama 4 Scout procesa todo de una vez, preservando relaciones entre documentos y conexiones sutiles que la fragmentación destruiría.

Iniciar chat Ver benchmarks

Variantes del modelo

Modelos instruction-tuned y base

Elige entre la variante instruction-tuned optimizada para chat y tareas de contexto largo, o el modelo base para fine-tuning y aplicaciones personalizadas.

Arquitectura Mixture-of-Experts

109B de parámetros totales, 17B activos por token

Llama 4 Scout usa un diseño MoE disperso con 16 expertos, activando 17B de parámetros por pasada. Su característica destacada es la ventana de contexto de 10 millones de tokens, la más larga de cualquier modelo abierto disponible.

Ideal para tareas que requieren procesar grandes cantidades de texto: repositorios completos, análisis de múltiples documentos, artículos de investigación extensos e historiales de conversación prolongados.

Iniciar chat Ver capacidades

Instruction-tuned

Scout Instruct

Optimizado para IA conversacional y tareas de contexto largo

Ajustado para seguir instrucciones, diálogo multi-turno y procesamiento de entradas muy largas

Disponible ahora

Iniciar chat Descargar pesos

Pre-entrenado

Scout Base

Modelo MoE base para fine-tuning y aplicaciones especializadas

Pre-entrenado con datos multimodales diversos y enrutamiento de 16 expertos

Disponible ahora

Ver en HuggingFace Documentación

Capacidades

Qué hace de Llama 4 Scout una potencia de contexto largo

Llama 4 Scout combina una ventana de contexto de 10M de tokens sin precedentes con eficiencia MoE, soporte multimodal nativo y sólidas capacidades de razonamiento. Cada característica está diseñada para manejar tareas que exigen procesar grandes volúmenes de información en una sola pasada.

Ventana de contexto de 10M de tokens

La ventana de contexto más larga de cualquier modelo abierto disponible. Procesa repositorios completos de más de 50.000 líneas en cientos de archivos, bibliotecas de investigación con múltiples documentos u horas de conversación en una sola llamada. Las pruebas needle in a haystack confirman una precisión de recuperación del 95% hasta 8 millones de tokens, con un 89% de precisión en el límite completo de 10 millones de tokens.

Eficiencia MoE

Activa solo 17B de parámetros por token de un pool de 109B distribuido en 16 expertos. Esta estrategia de enrutamiento disperso ofrece un rendimiento sólido a una fracción del costo computacional de modelos densos con conteos de parámetros totales similares. El resultado es un despliegue práctico con menos GPUs de las que esperarías para un modelo de esta capacidad.

Análisis de código a escala

Carga repositorios completos en contexto para análisis entre archivos, seguimiento de dependencias y tareas de refactorización a gran escala. Llama 4 Scout puede rastrear llamadas a funciones entre módulos, identificar imports no utilizados y sugerir mejoras arquitectónicas mientras ve la imagen completa de tu código simultáneamente.

Flujos de trabajo agénticos

El soporte nativo de function calling y uso de herramientas permite agentes autónomos sin fine-tuning adicional. Construye flujos de trabajo que encadenan múltiples herramientas, consultan bases de datos, llaman APIs y procesan resultados en secuencia. La ventana de contexto extendida permite que los agentes mantengan un estado rico a lo largo de muchos pasos de interacción.

Soporte multilingüe

Rendimiento sólido en múltiples idiomas con comprensión del contexto cultural para aplicaciones globales. Ya sea que analices documentos en inglés, chino, español u otros idiomas soportados, Llama 4 Scout mantiene una calidad consistente y comprensión matizada a través de las fronteras lingüísticas.

Multimodal nativo

Procesa texto e imágenes juntos con arquitectura de fusión temprana. Analiza capturas de pantalla, diagramas, gráficos y documentos junto con texto sin necesidad de pipelines de visión separados. La capacidad multimodal está integrada en el modelo desde su base, permitiendo un razonamiento fluido entre información visual y textual.

Puntos clave

Por qué importa la ventana de contexto de Llama 4 Scout

Una ventana de contexto de 10M de tokens cambia lo que es posible con una sola llamada al modelo.

Qué cabe en 10M de tokens

Un repositorio mediano completo (más de 50K líneas en cientos de archivos)
Múltiples artículos de investigación o un libro completo
Horas de transcripciones de reuniones o historial de conversación
Conjuntos completos de documentación para sistemas complejos
Más del 95% de precisión de recuperación hasta 8M de tokens en pruebas needle-in-a-haystack

Especificaciones técnicas

109B de parámetros totales, 17B activos por token
16 expertos en arquitectura MoE
Ventana de contexto de 10M de tokens
Multimodal nativo (texto + imagen)
Licencia compatible con Llama 3.1

Chat gratuito Descargar pesos

Rendimiento

Especialista en contexto largo con razonamiento competitivo

Llama 4 Scout ofrece un rendimiento sólido en benchmarks estándar mientras proporciona una ventana de contexto de 10M de tokens inigualable para tareas con documentos largos.

En uso real, Llama 4 Scout brilla cuando las tareas exigen procesar grandes volúmenes de información. Los desarrolladores reportan haber cargado repositorios completos de GitHub para revisiones de código exhaustivas, los investigadores alimentan colecciones completas de artículos para síntesis de literatura, y los equipos legales procesan bibliotecas completas de contratos para comparación de cláusulas. Aunque Maverick lidera en puntuaciones brutas de benchmarks, la ventana de contexto de 10M de Scout lo convierte en la opción clara para flujos de trabajo donde ver todo a la vez es más valioso que ganancias marginales de calidad en prompts cortos.

Iniciar chat Ver model card

Gráfico comparativo de rendimiento de Llama 4 Scout

Ventana de contexto de 10M de tokens: la más larga de cualquier modelo abierto

Más del 95% de precisión de recuperación hasta 8M de tokens

17B de parámetros activos de 109B totales (16 expertos)

Competitivo con modelos de 2-3x su conteo de parámetros activos

Soporte multimodal nativo para entradas de texto e imagen

Comparación de benchmarks

Scout vs Maverick y la familia Llama 4

Scout sacrifica algo de rendimiento bruto en benchmarks a cambio de su enorme ventaja en ventana de contexto.

Benchmark	Llama 4 Scout 16 expertos Destacado	Llama 4 Maverick 128 expertos	Llama 3.1 70B Denso
MMLU Pro Conocimiento y razonamiento	74.3%	80.5%	66.4%
GPQA Diamond Conocimiento científico	57.2%	69.8%	46.7%
LiveCodeBench v5 Programación	32.8%	43.4%	28.5%
MMMU Multimodal	69.4%	73.4%	-
Context Window Tokens máximos	10M	1M	128K
Total Parameters Tamaño del modelo	109B	400B	70B
Active Parameters Por token	17B	17B	70B

Datos del model card oficial de Meta y evaluaciones independientes.

Contexto largo

10M de tokens: procesa repositorios completos con Llama 4 Scout

La ventana de contexto de 10M de tokens de Llama 4 Scout es la más larga de cualquier modelo abierto disponible. Carga repositorios completos, conjuntos de investigación con múltiples documentos u horas de transcripciones en un solo contexto para un análisis exhaustivo sin perder información por fragmentación o resumen.

Más del 95% de precisión de recuperación hasta 8M de tokens en pruebas needle-in-a-haystack
89% de precisión en el límite completo de 10M de tokens para recuperación fiable a larga distancia
Procesa más de 50K líneas de código en cientos de archivos simultáneamente
Analiza colecciones completas de artículos de investigación sin dividir documentos
Mantiene el historial completo de conversación en sesiones multi-turno extendidas

Probar tareas de contexto largo Ver benchmarks

Arquitectura MoE

Cómo Llama 4 Scout ofrece capacidad de 109B al costo de 17B

La arquitectura MoE de 16 expertos de Llama 4 Scout activa solo 17B de parámetros por token mientras mantiene la capacidad representacional de un modelo mucho más grande. Esto lo hace práctico para despliegue en un solo nodo mientras ofrece un rendimiento sólido en tareas de razonamiento, programación y análisis.

16 expertos con 17B de parámetros activos por pasada para inferencia eficiente
Mismo conteo de parámetros activos que Maverick con significativamente menos memoria total
Práctico para escenarios de despliegue en un solo nodo con menos requisitos de GPU
El enrutamiento disperso asegura que cada token reciba atención especializada de expertos
Menor costo operativo comparado con modelos densos con parámetros totales similares

Iniciar chat Comparar con Maverick

Multimodal

Capacidades multimodales de Llama 4 Scout

Llama 4 Scout usa arquitectura de fusión temprana para procesar texto e imágenes juntos de forma nativa. La comprensión visual está integrada en el modelo desde su base en lugar de añadirse como un módulo separado, permitiendo un razonamiento fluido entre ambas modalidades dentro de la misma ventana de contexto masiva.

69.4% en el benchmark multimodal MMMU para un sólido razonamiento visual
La arquitectura de fusión temprana procesa imágenes y texto en un flujo unificado
Analiza capturas de pantalla, diagramas, diagramas de flujo y dibujos técnicos junto con código
Combina análisis visual de documentos con la ventana de contexto completa de 10M de tokens
No necesita pipeline de visión separado, reduciendo la complejidad del despliegue

Comenzar

Prueba Llama 4 Scout ahora

Empieza a chatear al instante o descarga los pesos para despliegue auto-alojado.

Chatear con Scout

Prueba Llama 4 Scout al instante, sin configuración

Model card

Especificaciones técnicas completas y benchmarks

Documentación

Guías de integración y mejores prácticas

Descargar y desplegar

Despliegue auto-alojado

Descarga los pesos oficiales del modelo para despliegue en tu infraestructura.

Hugging Face

Repositorio oficial del modelo Llama 4 Scout

Ollama

Ejecuta localmente con Ollama

GitHub

Código fuente y ejemplos

FAQ

Preguntas frecuentes sobre Llama 4 Scout

Respuestas a las preguntas más comunes que desarrolladores e investigadores hacen sobre ejecutar, desplegar y sacar el máximo provecho de Llama 4 Scout.

¿Cuánta VRAM necesita Llama 4 Scout para ejecutarse localmente?

Ejecutar la versión de precisión completa de Llama 4 Scout requiere aproximadamente 220 GB de VRAM, lo que típicamente significa una configuración multi-GPU con al menos dos tarjetas A100 de 80 GB. Las versiones cuantizadas pueden reducir esto significativamente. La cuantización INT8 reduce el requisito a unos 110 GB, y la cuantización INT4 puede caber en aproximadamente 55 GB, haciéndolo accesible en configuraciones de consumo de gama alta con múltiples GPUs.

¿Puede Llama 4 Scout procesar un repositorio completo de GitHub?

Sí. La ventana de contexto de 10 millones de tokens de Llama 4 Scout puede contener aproximadamente 50.000 líneas de código en cientos de archivos simultáneamente. Esto significa que la mayoría de los repositorios medianos caben completamente en una sola llamada de contexto, permitiendo análisis entre archivos, seguimiento de dependencias y revisión arquitectónica sin fragmentación ni pérdida de contexto entre archivos.

¿Cuál es la diferencia entre Llama 4 Scout y Maverick?

Llama 4 Scout está optimizado para tareas de contexto largo con su ventana de 10M de tokens y 16 expertos (109B de parámetros totales). Maverick prioriza la calidad bruta con 128 expertos y 400B de parámetros totales pero tiene una ventana de contexto de 1M de tokens. Ambos activan 17B de parámetros por token. Elige Scout cuando necesites contexto masivo, elige Maverick cuando necesites el máximo rendimiento en benchmarks.

¿Es Llama 4 Scout gratuito para uso comercial?

Sí. Llama 4 Scout se publica bajo la licencia compatible con Llama 3.1, que permite uso comercial. Puedes desplegarlo en aplicaciones de producción, construir productos sobre él y hacer fine-tuning para tus necesidades específicas. La licencia incluye ciertos umbrales de uso para despliegues a muy gran escala, así que revisa los términos completos de la licencia si tu aplicación sirve a cientos de millones de usuarios.

¿Cómo funciona la ventana de contexto de 10 millones de tokens en Llama 4 Scout?

La ventana de contexto de 10M de tokens permite a Llama 4 Scout aceptar y procesar hasta 10 millones de tokens en una sola llamada de inferencia. Esto se logra mediante innovaciones arquitectónicas en codificación posicional y mecanismos de atención que mantienen la coherencia en secuencias extremadamente largas. Las pruebas needle-in-a-haystack muestran un 95% de precisión de recuperación hasta 8M de tokens y un 89% en el límite completo de 10M.

¿Qué lenguajes de programación soporta Llama 4 Scout para análisis de código?

Llama 4 Scout soporta todos los lenguajes de programación principales incluyendo Python, JavaScript, TypeScript, Java, C++, Go, Rust y muchos más. Sus datos de entrenamiento cubren una amplia gama de repositorios de código abierto. La verdadera ventaja es la ventana de contexto: puedes cargar proyectos completos multi-lenguaje y analizar interacciones entre lenguajes, límites de API y arquitecturas full-stack en una sola llamada.

Familia Llama 4