Llama 4 Scout

1,000만 토큰 컨텍스트 - 오픈 모델 중 가장 긴 윈도우

Llama 4 Scout는 Meta의 장문맥 전문 모델입니다. 총 109B 파라미터, 16개 전문가에 걸쳐 토큰당 17B 활성 파라미터, 1,000만 토큰 컨텍스트 윈도우를 갖추고 있어 전체 코드베이스, 다중 문서 연구 자료, 수 시간 분량의 대화 기록을 한 번의 호출로 처리할 수 있습니다.

채팅 시작 벤치마크 보기

모델 변형

인스트럭션 튜닝 모델과 베이스 모델

채팅 및 장문맥 작업에 최적화된 인스트럭션 튜닝 버전과, 파인튜닝 및 맞춤 애플리케이션을 위한 베이스 모델 중 선택하세요.

Mixture-of-Experts 아키텍처

총 109B 파라미터, 토큰당 17B 활성

Llama 4 Scout는 16개 전문가를 활용하는 희소 MoE 설계로, 순전파 시 17B 파라미터를 활성화합니다. 가장 큰 특징은 공개 모델 중 최장인 1,000만 토큰 컨텍스트 윈도우입니다.

대규모 텍스트 처리가 필요한 작업에 적합합니다: 전체 코드베이스, 다중 문서 분석, 긴 연구 논문, 장시간 대화 기록 등.

채팅 시작 기능 보기

인스트럭션 튜닝

Scout Instruct

대화형 AI 및 장문맥 작업 완수에 최적화

지시 따르기, 멀티턴 대화, 매우 긴 입력 처리에 맞춰 파인튜닝

지금 이용 가능

채팅 시작 가중치 다운로드

사전 학습

Scout Base

파인튜닝 및 특수 애플리케이션을 위한 기반 MoE 모델

16개 전문가 라우팅으로 다양한 멀티모달 데이터에 사전 학습

지금 이용 가능

HuggingFace에서 보기 문서

기능

대규모 컨텍스트와 멀티모달 이해를 위해 설계

Llama 4 Scout는 전례 없는 1,000만 토큰 컨텍스트 윈도우에 MoE 효율성, 네이티브 멀티모달 지원, 강력한 추론 능력을 결합합니다.

1,000만 토큰 컨텍스트 윈도우

공개 모델 중 가장 긴 컨텍스트 윈도우입니다. 전체 코드베이스, 다중 문서 연구 자료, 수 시간 분량의 대화를 한 번의 호출로 처리할 수 있습니다.

MoE 효율성

16개 전문가에 걸친 109B 풀에서 토큰당 17B 파라미터만 활성화합니다. 밀집 모델 대비 훨씬 적은 연산 비용으로 강력한 성능을 제공합니다.

대규모 코드 분석

전체 리포지토리를 컨텍스트에 로드하여 파일 간 분석, 의존성 추적, 대규모 리팩토링 작업을 수행할 수 있습니다.

에이전틱 워크플로

네이티브 함수 호출 및 도구 사용을 지원하여 자율 에이전트를 구축할 수 있습니다. 파인튜닝 없이 여러 도구를 연결하는 워크플로를 만드세요.

다국어 지원

글로벌 애플리케이션을 위해 문화적 맥락을 이해하며 여러 언어에서 강력한 성능을 발휘합니다.

네이티브 멀티모달

얼리 퓨전 아키텍처로 텍스트와 이미지를 함께 처리합니다. 스크린샷, 다이어그램, 문서를 텍스트와 함께 분석하세요.

주요 하이라이트

Scout의 컨텍스트 윈도우가 중요한 이유

1,000만 토큰 컨텍스트 윈도우는 단일 모델 호출로 가능한 것의 범위를 바꿉니다.

1,000만 토큰에 담을 수 있는 것

중간 규모 코드베이스 전체 (수백 개 파일에 걸친 50K+ 라인)
여러 연구 논문 또는 책 한 권 전체
수 시간 분량의 회의 녹취록 또는 대화 기록
복잡한 시스템의 전체 문서 세트
Needle-in-a-haystack 테스트에서 8M 토큰까지 95% 이상 검색 정확도

기술 사양

총 109B 파라미터, 토큰당 17B 활성
MoE 아키텍처에 16개 전문가
1,000만 토큰 컨텍스트 윈도우
네이티브 멀티모달 (텍스트 + 이미지)
Llama 3.1 호환 라이선스

무료 채팅 시작 가중치 다운로드

성능

경쟁력 있는 추론 능력을 갖춘 장문맥 전문 모델

Llama 4 Scout는 표준 벤치마크에서 강력한 성능을 보이면서 장문서 작업을 위한 비교 불가한 1,000만 토큰 컨텍스트 윈도우를 제공합니다.

Scout는 대량의 컨텍스트 처리가 필요한 작업에 최적화되어 있습니다. 순수 벤치마크 점수에서는 Maverick이 앞서지만, Scout의 1,000만 토큰 컨텍스트 윈도우는 장문서 워크플로에서 확실한 선택입니다.

채팅 시작 모델 카드 보기

1,000만 토큰 컨텍스트 윈도우 - 오픈 모델 중 최장

8M 토큰까지 95% 이상 검색 정확도

총 109B에서 17B 활성 파라미터 (16개 전문가)

활성 파라미터 수 2~3배 모델과 경쟁력 있는 성능

텍스트 및 이미지 입력을 위한 네이티브 멀티모달 지원

벤치마크 비교

Scout vs Maverick 및 Llama 4 패밀리

Scout는 대규모 컨텍스트 윈도우의 이점을 위해 일부 순수 벤치마크 성능을 교환합니다.

Benchmark	Llama 4 Scout 16개 전문가 주요 모델	Llama 4 Maverick 128개 전문가	Llama 3.1 70B 밀집 모델
MMLU Pro 지식 및 추론	74.3%	80.5%	66.4%
GPQA Diamond 과학 지식	57.2%	69.8%	46.7%
LiveCodeBench v5 코딩	32.8%	43.4%	28.5%
MMMU 멀티모달	69.4%	73.4%	-
Context Window 최대 토큰	10M	1M	128K
Total Parameters 모델 크기	109B	400B	70B
Active Parameters 토큰당	17B	17B	70B

Meta 공식 모델 카드 및 독립 평가 데이터 기반.

장문맥

1,000만 토큰: 전체 코드베이스를 한 번에 처리

Scout의 1,000만 토큰 컨텍스트 윈도우는 공개 모델 중 가장 깁니다. 전체 리포지토리, 다중 문서 연구 세트, 수 시간 분량의 녹취록을 단일 컨텍스트에 로드하여 종합적인 분석을 수행하세요.

Needle-in-a-haystack 테스트에서 8M 토큰까지 95% 이상 검색 정확도
전체 1,000만 토큰 한도에서 89% 정확도
수백 개 파일에 걸친 50K+ 라인의 코드를 동시에 처리
문서를 분할하지 않고 전체 연구 논문 컬렉션을 분석합니다
장시간 멀티턴 세션에서 전체 대화 기록을 유지합니다

장문맥 작업 시도 벤치마크 보기

MoE 아키텍처

109B 용량을 17B 추론 비용으로

Scout의 16개 전문가 MoE 아키텍처는 훨씬 큰 모델의 표현 능력을 유지하면서 토큰당 17B 파라미터만 활성화합니다. 이를 통해 단일 노드에서도 강력한 성능으로 실용적인 배포가 가능합니다.

순전파당 17B 활성 파라미터를 가진 16개 전문가
더 낮은 총 메모리에서 Maverick과 동일한 활성 파라미터 수
단일 노드 배포 시나리오에 적합
희소 라우팅으로 각 토큰이 전문화된 전문가의 처리를 받습니다
동일한 총 파라미터 수의 밀집 모델 대비 운영 비용이 낮습니다

채팅 시작 Maverick과 비교

멀티모달

Llama 4 Scout의 멀티모달 기능

Llama 4 Scout는 얼리 퓨전 아키텍처를 사용하여 텍스트와 이미지를 네이티브로 함께 처리합니다. 시각적 이해가 별도 모듈로 추가된 것이 아니라 처음부터 모델에 내장되어 있어, 동일한 대규모 컨텍스트 윈도우 안에서 두 모달리티에 걸친 자연스러운 추론이 가능합니다.

MMMU 멀티모달 벤치마크 69.4%로 강력한 시각적 추론 능력 입증
얼리 퓨전 아키텍처가 이미지와 텍스트를 통합된 스트림으로 처리
스크린샷, 다이어그램, 플로우차트, 기술 도면을 코드와 함께 분석
시각적 문서 분석과 전체 1,000만 토큰 컨텍스트 윈도우를 결합하여 활용
별도의 비전 파이프라인이 필요 없어 배포 복잡성이 감소

시작하기

지금 Llama 4 Scout를 사용해 보세요

바로 채팅을 시작하거나 셀프 호스팅 배포를 위해 가중치를 다운로드하세요.

Scout와 채팅

설정 없이 바로 Llama 4 Scout를 사용해 보세요

모델 카드

전체 기술 사양 및 벤치마크

문서

통합 가이드 및 모범 사례

다운로드 및 배포

셀프 호스팅 배포

인프라에 배포하기 위한 공식 모델 가중치를 다운로드하세요.

Hugging Face

공식 Llama 4 Scout 모델 리포지토리

Ollama

Ollama로 로컬 실행

GitHub

소스 코드 및 예제

FAQ

Llama 4 Scout에 대해 자주 묻는 질문

Llama 4 Scout 실행, 배포, 최대 활용에 관해 개발자와 연구자들이 가장 많이 묻는 질문에 대한 답변입니다.

Llama 4 Scout를 로컬에서 실행하려면 VRAM이 얼마나 필요한가요?

전체 정밀도 버전의 Llama 4 Scout를 실행하려면 약 220 GB의 VRAM이 필요하며, 일반적으로 A100 80 GB 카드 2개 이상의 멀티 GPU 구성이 필요합니다. 양자화 버전을 사용하면 요구사항을 크게 줄일 수 있습니다. INT8 양자화는 약 110 GB, INT4 양자화는 약 55 GB로 낮출 수 있어 멀티 GPU 고성능 소비자 장비에서도 실행이 가능합니다.

Llama 4 Scout로 GitHub 리포지토리 전체를 처리할 수 있나요?

네. Llama 4 Scout의 1,000만 토큰 컨텍스트 윈도우는 수백 개 파일에 걸쳐 약 50,000줄의 코드를 동시에 담을 수 있습니다. 대부분의 중간 규모 리포지토리가 단일 컨텍스트 호출 안에 완전히 들어가므로, 파일 간 분석, 의존성 추적, 아키텍처 검토를 청킹이나 컨텍스트 손실 없이 수행할 수 있습니다.

Llama 4 Scout와 Maverick의 차이점은 무엇인가요?

Llama 4 Scout는 1,000만 토큰 윈도우와 16개 전문가(총 109B 파라미터)로 장문맥 작업에 최적화되어 있습니다. Maverick은 128개 전문가와 400B 총 파라미터로 순수 품질을 우선시하지만 컨텍스트 윈도우는 100만 토큰입니다. 두 모델 모두 토큰당 17B 파라미터를 활성화합니다. 대규모 컨텍스트가 필요하면 Scout, 최고 벤치마크 성능이 필요하면 Maverick을 선택하세요.

Llama 4 Scout는 상업적으로 무료로 사용할 수 있나요?

네. Llama 4 Scout는 상업적 사용을 허용하는 Llama 3.1 호환 라이선스로 출시되었습니다. 프로덕션 애플리케이션에 배포하고, 그 위에 제품을 구축하고, 특정 요구에 맞게 파인튜닝할 수 있습니다. 다만 매우 대규모 배포에 대한 사용 기준이 포함되어 있으므로, 수억 명의 사용자를 대상으로 하는 서비스라면 전체 라이선스 조항을 확인하세요.

Llama 4 Scout의 1,000만 토큰 컨텍스트 윈도우는 어떻게 작동하나요?

1,000만 토큰 컨텍스트 윈도우를 통해 Llama 4 Scout는 단일 추론 호출에서 최대 1,000만 토큰을 받아 처리할 수 있습니다. 이는 매우 긴 시퀀스에서도 일관성을 유지하는 위치 인코딩과 어텐션 메커니즘의 아키텍처 혁신으로 구현됩니다. Needle-in-a-haystack 테스트에서 8M 토큰까지 95%, 전체 1,000만 토큰 한도에서 89%의 검색 정확도를 보여줍니다.

Llama 4 Scout는 코드 분석에서 어떤 프로그래밍 언어를 지원하나요?

Llama 4 Scout는 Python, JavaScript, TypeScript, Java, C++, Go, Rust 등 모든 주요 프로그래밍 언어를 지원합니다. 학습 데이터는 광범위한 오픈 소스 리포지토리를 포함합니다. 진정한 강점은 컨텍스트 윈도우에 있습니다. 다중 언어 프로젝트 전체를 로드하여 언어 간 상호작용, API 경계, 풀스택 아키텍처를 단일 호출로 분석할 수 있습니다.

Llama 4 패밀리