전체 모델
사용 사례에 맞는 Llama 4를 선택하세요
Scout와 Maverick은 서로 다른 시나리오에 최적화되어 있습니다. Scout는 장문맥 작업에, Maverick은 최고 품질에 강점을 보입니다.
Llama 4 Scout
1,000만 토큰 컨텍스트 윈도우 - 장문맥 전문 모델
16개 전문가에 걸쳐 총 109B 파라미터, 토큰당 17B 활성. 가장 큰 특징은 공개 모델 중 최장인 1,000만 토큰 컨텍스트 윈도우입니다.
전체 코드베이스, 다중 문서 연구 세트, 매우 긴 대화 기록을 한 번의 호출로 처리해야 할 때 Scout를 선택하세요.
Llama 4 Maverick
128개 전문가, 400B 파라미터 - 품질 플래그십
128개 전문가에 걸쳐 총 400B 파라미터, 토큰당 17B 활성. 주요 벤치마크에서 GPT-4o를 능가합니다. 이 사이트의 기본 채팅 모델입니다.
추론, 코딩, 멀티모달 분석, 복잡한 작업 완수에서 최고 품질이 필요할 때 Maverick을 선택하세요.
공통 기능
두 Llama 4 모델이 할 수 있는 것
Scout와 Maverick은 Meta의 MoE 아키텍처를 기반으로 공통된 기능 세트를 공유합니다.
네이티브 멀티모달
두 모델 모두 얼리 퓨전 아키텍처로 텍스트와 이미지를 네이티브로 처리합니다. 별도의 인코더나 파이프라인이 필요 없습니다.
MoE 효율성
두 모델 모두 토큰당 17B 파라미터만 활성화합니다. Scout는 16개 전문가(총 109B), Maverick은 128개 전문가(총 400B)를 사용합니다.
함수 호출
두 모델 모두 내장된 함수 호출로 에이전틱 워크플로를 지원합니다. 도구 사용을 위한 파인튜닝이 필요 없습니다.
확장된 컨텍스트
Scout: 1,000만 토큰. Maverick: 100만 토큰. 두 모델 모두 이전 세대의 한계를 크게 넘어섭니다.
다국어 지원
글로벌 애플리케이션을 위해 두 모델 모두 강력한 다국어 지원을 제공합니다.
오픈 웨이트
두 모델 모두 Llama 3.1 호환 라이선스 하에 완전한 오픈 웨이트입니다. 어디서든 배포하고 자유롭게 수정하세요.
빠른 선택 가이드
어떤 모델을 선택해야 할까요?
주요 사용 사례에 맞는 Llama 4 변형을 매칭하세요.
Scout를 선택해야 할 때
- 매우 긴 문서를 처리해야 할 때 (1,000만 토큰)
- 수백 개 파일에 걸친 전체 코드베이스 분석
- 다중 문서 연구 및 종합
- 장시간 대화 기록
- 더 낮은 메모리 요구사항 (총 109B vs 400B)
Maverick을 선택해야 할 때
- 최고 품질이 우선일 때
- 복잡한 추론 및 과학 작업
- 코드 생성 및 디버깅
- 멀티모달 분석 (스크린샷, 다이어그램)
- 벤치마크 성능이 가장 중요한 작업
성능
전체 벤치마크 비교
Scout는 컨텍스트 길이에, Maverick은 순수 품질에 최적화되어 있습니다. 두 모델 모두 설계 목표 대비 강력한 성능을 제공합니다.
Maverick: MMLU Pro 80.5%, MMMU 73.4%, 코딩에서 GPT-4o 능가
Scout: 1,000만 토큰 컨텍스트, 8M 토큰에서 95% 이상 검색 정확도
공통: 17B 활성 파라미터, 네이티브 멀티모달, 함수 호출
공통: Llama 3.1 호환 라이선스 하의 오픈 웨이트
전체 비교
Scout vs Maverick 나란히 비교
추론, 코딩, 멀티모달, 배포 지표에 걸친 전체 벤치마크 결과.
| Benchmark | Maverick 128개 전문가 플래그십 | Scout 16개 전문가 장문맥 |
|---|---|---|
MMLU Pro 지식 및 추론 | 80.5% | 74.3% |
GPQA Diamond 과학 지식 | 69.8% | 57.2% |
LiveCodeBench v5 코딩 | 43.4% | 32.8% |
MMMU 멀티모달 | 73.4% | 69.4% |
Context Window 최대 토큰 | 1M | 10M |
Total Parameters 모델 크기 | 400B | 109B |
Active Parameters 토큰당 | 17B | 17B |
Number of Experts MoE 라우팅 | 128 | 16 |
Meta 공식 모델 카드 및 독립 평가 데이터 기반.
Scout
Scout: 컨텍스트 길이가 모든 것일 때
Scout의 1,000만 토큰 컨텍스트 윈도우는 비교 불가합니다. 전체 코드베이스, 다중 문서 연구 세트, 수 시간 분량의 녹취록을 한 번의 호출로 처리할 수 있습니다. 매우 긴 입력이 필요한 작업이라면 Scout가 확실한 선택입니다.
- 1,000만 토큰 컨텍스트 - 오픈 모델 중 최장
- 8M 토큰까지 95% 이상 검색 정확도
- 16개 전문가에 걸쳐 총 109B 파라미터
- 전체 GitHub 리포지토리를 처리하여 포괄적인 코드 리뷰를 수행합니다
- 법률 문서 분석, 연구 종합, 감사 워크플로에 적합합니다
Maverick
Maverick: 품질이 우선일 때
Maverick의 128개 전문가 아키텍처는 프론티어급 성능을 제공합니다. 주요 벤치마크에서 GPT-4o를 능가하며, 복잡한 추론, 코딩, 멀티모달 작업을 손쉽게 처리하기 때문에 이 사이트의 기본 모델로 선정되었습니다.
- MMLU Pro 80.5% - 프론티어 지식 및 추론
- 코딩 벤치마크에서 GPT-4o 능가
- 128개 전문가에 걸쳐 총 400B 파라미터
- 이미지와 문서의 강력한 멀티모달 이해를 위한 MMMU 73.4%
- 자율 에이전트 워크플로 구축을 위한 네이티브 함수 호출
선택 가이드
Llama 4 모델 중 올바른 옵션 선택하기
Llama 4 모델 사이의 선택은 특정 워크플로에서 무엇이 가장 중요한지에 달려 있습니다. 두 모델 모두 17B 활성 파라미터와 네이티브 멀티모달 지원을 공유하므로, 결정은 컨텍스트 길이 대 출력 품질로 귀결됩니다. 많은 팀이 파이프라인의 서로 다른 부분에 두 변형을 함께 활용하는 데서 가치를 찾습니다.
- 한 번에 100만 토큰 이상을 처리해야 하는 작업에는 Scout를 선택하세요
- 출력 품질과 추론 깊이가 가장 중요한 작업에는 Maverick을 선택하세요
- 두 모델 모두 17B 활성 파라미터를 공유하므로 토큰당 추론 비용이 비슷합니다
- 수집 및 분석에는 Scout를, 종합 및 생성에는 Maverick을 활용하세요
- 두 모델 모두 동일한 오픈 웨이트 라이선스로 운영되므로 어느 쪽이든 또는 둘 다 자유롭게 배포할 수 있습니다
지금 사용해 보기
Llama 4와 채팅 시작
채팅 인터페이스를 통해 두 모델을 바로 사용해 보세요.
다운로드
모델 가중치 받기
Llama 4 변형의 공식 가중치를 다운로드하세요.
FAQ
Llama 4 모델에 대해 자주 묻는 질문
프로젝트에 맞는 Llama 4 모델을 선택하고, 실행하고, 배포하는 방법에 관해 가장 많이 묻는 질문에 대한 답변입니다.
현재 두 가지 Llama 4 모델이 있습니다: Scout와 Maverick. 각 모델은 두 가지 변형으로 제공됩니다. 채팅과 작업 완수에 최적화된 인스트럭션 튜닝 버전과, 파인튜닝 및 연구를 위한 베이스 사전 학습 버전입니다. 즉, 바로 사용 가능한 대화형 모델이 필요한지, 맞춤 학습을 위한 기반 모델이 필요한지에 따라 총 4개의 체크포인트 중 선택할 수 있습니다.
코딩 작업에는 Maverick이 더 강력한 선택입니다. LiveCodeBench v5에서 43.4%를 기록하며 Scout(32.8%)와 GPT-4o(37.0%) 모두를 앞섭니다. 128개 전문가 아키텍처가 다양한 프로그래밍 언어와 프레임워크에 걸쳐 깊은 전문성을 제공합니다. 다만 대규모 코드베이스 전체를 한 번에 분석해야 한다면, Scout의 1,000만 토큰 컨텍스트 윈도우를 통해 모든 것을 단일 호출로 로드하여 파일 간 분석을 수행할 수 있습니다.
전체 버전을 실행하려면 멀티 GPU 구성이 필요합니다. Scout는 전체 정밀도에서 약 220 GB, Maverick은 약 800 GB의 VRAM이 필요합니다. 하지만 양자화 버전을 사용하면 요구사항을 크게 줄일 수 있습니다. INT4 양자화를 적용한 Scout는 약 55 GB에 맞출 수 있어 멀티 GPU 고성능 소비자 장비에서도 실행 가능합니다. INT4를 적용한 Maverick도 약 200 GB가 필요하므로 클라우드나 엔터프라이즈 하드웨어에 더 적합합니다.
Scout는 1,000만 토큰 윈도우와 16개 전문가(총 109B 파라미터)로 장문맥 작업에 최적화되어 있습니다. Maverick은 128개 전문가와 400B 총 파라미터로 출력 품질을 우선시하지만 컨텍스트 윈도우는 100만 토큰입니다. 두 모델 모두 토큰당 17B 파라미터를 활성화합니다. 같은 카메라 시스템에서 Scout는 광각 렌즈, Maverick은 고해상도 렌즈라고 생각하면 됩니다.
네. 모든 Llama 4 모델은 상업적 사용, 파인튜닝, 재배포를 허용하는 Llama 3.1 호환 라이선스로 출시되었습니다. 자체 인프라에 배포하고, 그 위에 제품을 구축하고, 특정 요구에 맞게 가중치를 수정할 수 있습니다. 다만 수억 명의 사용자를 대상으로 하는 매우 대규모 배포에 대한 사용 기준이 포함되어 있습니다.
문서의 양과 복잡도에 따라 다릅니다. 대량의 문서, 계약서, 연구 논문 컬렉션을 한 번에 분석해야 한다면 Scout의 1,000만 토큰 컨텍스트 윈도우가 이상적입니다. 짧은 문서에서 최고 품질의 추출, 요약, 추론이 필요하다면 Maverick의 128개 전문가 아키텍처가 더 정교하고 정확한 결과를 제공합니다. 두 모델 모두 차트, 표, 다이어그램이 포함된 문서를 위한 네이티브 이미지 이해를 지원합니다.