Llama 4 Scout

10 millones de tokens de contexto: la ventana más larga en cualquier modelo abierto

Llama 4 Scout redefine lo que una sola llamada a un modelo puede lograr. Construido sobre la arquitectura mixture of experts de Meta con 109B de parámetros totales y solo 17B activos por token, ofrece la ventana de contexto más larga de cualquier modelo abierto disponible: 10 millones de tokens. Carga un repositorio completo con cientos de archivos, una biblioteca de investigación con docenas de artículos o horas de transcripciones de reuniones. Donde otros modelos te obligan a fragmentar y resumir, Llama 4 Scout procesa todo de una vez, preservando relaciones entre documentos y conexiones sutiles que la fragmentación destruiría.

Variantes del modelo

Modelos instruction-tuned y base

Elige entre la variante instruction-tuned optimizada para chat y tareas de contexto largo, o el modelo base para fine-tuning y aplicaciones personalizadas.

Arquitectura Mixture-of-Experts

109B de parámetros totales, 17B activos por token

Llama 4 Scout usa un diseño MoE disperso con 16 expertos, activando 17B de parámetros por pasada. Su característica destacada es la ventana de contexto de 10 millones de tokens, la más larga de cualquier modelo abierto disponible.

Ideal para tareas que requieren procesar grandes cantidades de texto: repositorios completos, análisis de múltiples documentos, artículos de investigación extensos e historiales de conversación prolongados.

Instruction-tuned

Scout Instruct

Optimizado para IA conversacional y tareas de contexto largo

Ajustado para seguir instrucciones, diálogo multi-turno y procesamiento de entradas muy largas

Disponible ahora

Pre-entrenado

Scout Base

Modelo MoE base para fine-tuning y aplicaciones especializadas

Pre-entrenado con datos multimodales diversos y enrutamiento de 16 expertos

Disponible ahora

Capacidades

Qué hace de Llama 4 Scout una potencia de contexto largo

Llama 4 Scout combina una ventana de contexto de 10M de tokens sin precedentes con eficiencia MoE, soporte multimodal nativo y sólidas capacidades de razonamiento. Cada característica está diseñada para manejar tareas que exigen procesar grandes volúmenes de información en una sola pasada.

Ventana de contexto de 10M de tokens

La ventana de contexto más larga de cualquier modelo abierto disponible. Procesa repositorios completos de más de 50.000 líneas en cientos de archivos, bibliotecas de investigación con múltiples documentos u horas de conversación en una sola llamada. Las pruebas needle in a haystack confirman una precisión de recuperación del 95% hasta 8 millones de tokens, con un 89% de precisión en el límite completo de 10 millones de tokens.

Eficiencia MoE

Activa solo 17B de parámetros por token de un pool de 109B distribuido en 16 expertos. Esta estrategia de enrutamiento disperso ofrece un rendimiento sólido a una fracción del costo computacional de modelos densos con conteos de parámetros totales similares. El resultado es un despliegue práctico con menos GPUs de las que esperarías para un modelo de esta capacidad.

Análisis de código a escala

Carga repositorios completos en contexto para análisis entre archivos, seguimiento de dependencias y tareas de refactorización a gran escala. Llama 4 Scout puede rastrear llamadas a funciones entre módulos, identificar imports no utilizados y sugerir mejoras arquitectónicas mientras ve la imagen completa de tu código simultáneamente.

Flujos de trabajo agénticos

El soporte nativo de function calling y uso de herramientas permite agentes autónomos sin fine-tuning adicional. Construye flujos de trabajo que encadenan múltiples herramientas, consultan bases de datos, llaman APIs y procesan resultados en secuencia. La ventana de contexto extendida permite que los agentes mantengan un estado rico a lo largo de muchos pasos de interacción.

Soporte multilingüe

Rendimiento sólido en múltiples idiomas con comprensión del contexto cultural para aplicaciones globales. Ya sea que analices documentos en inglés, chino, español u otros idiomas soportados, Llama 4 Scout mantiene una calidad consistente y comprensión matizada a través de las fronteras lingüísticas.

Multimodal nativo

Procesa texto e imágenes juntos con arquitectura de fusión temprana. Analiza capturas de pantalla, diagramas, gráficos y documentos junto con texto sin necesidad de pipelines de visión separados. La capacidad multimodal está integrada en el modelo desde su base, permitiendo un razonamiento fluido entre información visual y textual.

Puntos clave

Por qué importa la ventana de contexto de Llama 4 Scout

Una ventana de contexto de 10M de tokens cambia lo que es posible con una sola llamada al modelo.

Qué cabe en 10M de tokens

  • Un repositorio mediano completo (más de 50K líneas en cientos de archivos)
  • Múltiples artículos de investigación o un libro completo
  • Horas de transcripciones de reuniones o historial de conversación
  • Conjuntos completos de documentación para sistemas complejos
  • Más del 95% de precisión de recuperación hasta 8M de tokens en pruebas needle-in-a-haystack

Especificaciones técnicas

  • 109B de parámetros totales, 17B activos por token
  • 16 expertos en arquitectura MoE
  • Ventana de contexto de 10M de tokens
  • Multimodal nativo (texto + imagen)
  • Licencia compatible con Llama 3.1

Rendimiento

Especialista en contexto largo con razonamiento competitivo

Llama 4 Scout ofrece un rendimiento sólido en benchmarks estándar mientras proporciona una ventana de contexto de 10M de tokens inigualable para tareas con documentos largos.

En uso real, Llama 4 Scout brilla cuando las tareas exigen procesar grandes volúmenes de información. Los desarrolladores reportan haber cargado repositorios completos de GitHub para revisiones de código exhaustivas, los investigadores alimentan colecciones completas de artículos para síntesis de literatura, y los equipos legales procesan bibliotecas completas de contratos para comparación de cláusulas. Aunque Maverick lidera en puntuaciones brutas de benchmarks, la ventana de contexto de 10M de Scout lo convierte en la opción clara para flujos de trabajo donde ver todo a la vez es más valioso que ganancias marginales de calidad en prompts cortos.

Gráfico comparativo de rendimiento de Llama 4 Scout

Ventana de contexto de 10M de tokens: la más larga de cualquier modelo abierto

Más del 95% de precisión de recuperación hasta 8M de tokens

17B de parámetros activos de 109B totales (16 expertos)

Competitivo con modelos de 2-3x su conteo de parámetros activos

Soporte multimodal nativo para entradas de texto e imagen

Comparación de benchmarks

Scout vs Maverick y la familia Llama 4

Scout sacrifica algo de rendimiento bruto en benchmarks a cambio de su enorme ventaja en ventana de contexto.

Benchmark
Llama 4 Scout
16 expertos
Destacado
Llama 4 Maverick
128 expertos
Llama 3.1 70B
Denso
MMLU Pro
Conocimiento y razonamiento
74.3%80.5%66.4%
GPQA Diamond
Conocimiento científico
57.2%69.8%46.7%
LiveCodeBench v5
Programación
32.8%43.4%28.5%
MMMU
Multimodal
69.4%73.4%-
Context Window
Tokens máximos
10M1M128K
Total Parameters
Tamaño del modelo
109B400B70B
Active Parameters
Por token
17B17B70B

Datos del model card oficial de Meta y evaluaciones independientes.

Contexto largo

10M de tokens: procesa repositorios completos con Llama 4 Scout

La ventana de contexto de 10M de tokens de Llama 4 Scout es la más larga de cualquier modelo abierto disponible. Carga repositorios completos, conjuntos de investigación con múltiples documentos u horas de transcripciones en un solo contexto para un análisis exhaustivo sin perder información por fragmentación o resumen.

  • Más del 95% de precisión de recuperación hasta 8M de tokens en pruebas needle-in-a-haystack
  • 89% de precisión en el límite completo de 10M de tokens para recuperación fiable a larga distancia
  • Procesa más de 50K líneas de código en cientos de archivos simultáneamente
  • Analiza colecciones completas de artículos de investigación sin dividir documentos
  • Mantiene el historial completo de conversación en sesiones multi-turno extendidas
Llama 4 Scout MoE architecture

Arquitectura MoE

Cómo Llama 4 Scout ofrece capacidad de 109B al costo de 17B

La arquitectura MoE de 16 expertos de Llama 4 Scout activa solo 17B de parámetros por token mientras mantiene la capacidad representacional de un modelo mucho más grande. Esto lo hace práctico para despliegue en un solo nodo mientras ofrece un rendimiento sólido en tareas de razonamiento, programación y análisis.

  • 16 expertos con 17B de parámetros activos por pasada para inferencia eficiente
  • Mismo conteo de parámetros activos que Maverick con significativamente menos memoria total
  • Práctico para escenarios de despliegue en un solo nodo con menos requisitos de GPU
  • El enrutamiento disperso asegura que cada token reciba atención especializada de expertos
  • Menor costo operativo comparado con modelos densos con parámetros totales similares
Llama 4 Scout 10M context window

Multimodal

Capacidades multimodales de Llama 4 Scout

Llama 4 Scout usa arquitectura de fusión temprana para procesar texto e imágenes juntos de forma nativa. La comprensión visual está integrada en el modelo desde su base en lugar de añadirse como un módulo separado, permitiendo un razonamiento fluido entre ambas modalidades dentro de la misma ventana de contexto masiva.

  • 69.4% en el benchmark multimodal MMMU para un sólido razonamiento visual
  • La arquitectura de fusión temprana procesa imágenes y texto en un flujo unificado
  • Analiza capturas de pantalla, diagramas, diagramas de flujo y dibujos técnicos junto con código
  • Combina análisis visual de documentos con la ventana de contexto completa de 10M de tokens
  • No necesita pipeline de visión separado, reduciendo la complejidad del despliegue

Descargar y desplegar

Despliegue auto-alojado

Descarga los pesos oficiales del modelo para despliegue en tu infraestructura.

FAQ

Preguntas frecuentes sobre Llama 4 Scout

Respuestas a las preguntas más comunes que desarrolladores e investigadores hacen sobre ejecutar, desplegar y sacar el máximo provecho de Llama 4 Scout.

¿Cuánta VRAM necesita Llama 4 Scout para ejecutarse localmente?

Ejecutar la versión de precisión completa de Llama 4 Scout requiere aproximadamente 220 GB de VRAM, lo que típicamente significa una configuración multi-GPU con al menos dos tarjetas A100 de 80 GB. Las versiones cuantizadas pueden reducir esto significativamente. La cuantización INT8 reduce el requisito a unos 110 GB, y la cuantización INT4 puede caber en aproximadamente 55 GB, haciéndolo accesible en configuraciones de consumo de gama alta con múltiples GPUs.

¿Puede Llama 4 Scout procesar un repositorio completo de GitHub?

Sí. La ventana de contexto de 10 millones de tokens de Llama 4 Scout puede contener aproximadamente 50.000 líneas de código en cientos de archivos simultáneamente. Esto significa que la mayoría de los repositorios medianos caben completamente en una sola llamada de contexto, permitiendo análisis entre archivos, seguimiento de dependencias y revisión arquitectónica sin fragmentación ni pérdida de contexto entre archivos.

¿Cuál es la diferencia entre Llama 4 Scout y Maverick?

Llama 4 Scout está optimizado para tareas de contexto largo con su ventana de 10M de tokens y 16 expertos (109B de parámetros totales). Maverick prioriza la calidad bruta con 128 expertos y 400B de parámetros totales pero tiene una ventana de contexto de 1M de tokens. Ambos activan 17B de parámetros por token. Elige Scout cuando necesites contexto masivo, elige Maverick cuando necesites el máximo rendimiento en benchmarks.

¿Es Llama 4 Scout gratuito para uso comercial?

Sí. Llama 4 Scout se publica bajo la licencia compatible con Llama 3.1, que permite uso comercial. Puedes desplegarlo en aplicaciones de producción, construir productos sobre él y hacer fine-tuning para tus necesidades específicas. La licencia incluye ciertos umbrales de uso para despliegues a muy gran escala, así que revisa los términos completos de la licencia si tu aplicación sirve a cientos de millones de usuarios.

¿Cómo funciona la ventana de contexto de 10 millones de tokens en Llama 4 Scout?

La ventana de contexto de 10M de tokens permite a Llama 4 Scout aceptar y procesar hasta 10 millones de tokens en una sola llamada de inferencia. Esto se logra mediante innovaciones arquitectónicas en codificación posicional y mecanismos de atención que mantienen la coherencia en secuencias extremadamente largas. Las pruebas needle-in-a-haystack muestran un 95% de precisión de recuperación hasta 8M de tokens y un 89% en el límite completo de 10M.

¿Qué lenguajes de programación soporta Llama 4 Scout para análisis de código?

Llama 4 Scout soporta todos los lenguajes de programación principales incluyendo Python, JavaScript, TypeScript, Java, C++, Go, Rust y muchos más. Sus datos de entrenamiento cubren una amplia gama de repositorios de código abierto. La verdadera ventaja es la ventana de contexto: puedes cargar proyectos completos multi-lenguaje y analizar interacciones entre lenguajes, límites de API y arquitecturas full-stack en una sola llamada.

Familia Llama 4

Explora la línea completa de Llama 4

Scout es parte de la familia Llama 4 de Meta. Compáralo con Maverick y ve cómo se posiciona frente a otros modelos abiertos.

Llama 4 Maverick

Modelo insignia MoE de 400B con 128 expertos

Comparar

Todos los modelos Llama 4

Resumen completo de la familia

Ver todos

Llama 4 vs Kimi K2.6

Scout/Maverick vs el modelo de 1T de Moonshot

Comparar

Llama 4 vs Qwen 3.6

Meta vs lo último de Alibaba

Comparar

Llama 4 vs DeepSeek V4

Duelo de arquitecturas MoE

Comparar

Llama 4 vs MiniMax M2.7

Contexto vs eficiencia de costo

Comparar

Comenzar

¿Listo para probar Llama 4 Scout?

Empieza a chatear gratis al instante, o descarga el modelo para despliegue auto-alojado. La ventana de contexto de 10M de tokens te espera.