Llama 4 모델

두 모델, 하나의 패밀리 - 장문맥에서 프론티어 품질까지

Llama 4 패밀리는 두 개의 MoE 모델로 구성됩니다: 대규모 컨텍스트(1,000만 토큰)를 위한 Scout와 최고 품질(128개 전문가, 400B 파라미터)을 위한 Maverick. 두 모델 모두 토큰당 17B 활성 파라미터와 네이티브 멀티모달을 지원합니다.

채팅 시작 모델 비교

전체 모델

사용 사례에 맞는 Llama 4를 선택하세요

Scout와 Maverick은 서로 다른 시나리오에 최적화되어 있습니다. Scout는 장문맥 작업에, Maverick은 최고 품질에 강점을 보입니다.

Llama 4 Scout

1,000만 토큰 컨텍스트 윈도우 - 장문맥 전문 모델

16개 전문가에 걸쳐 총 109B 파라미터, 토큰당 17B 활성. 가장 큰 특징은 공개 모델 중 최장인 1,000만 토큰 컨텍스트 윈도우입니다.

전체 코드베이스, 다중 문서 연구 세트, 매우 긴 대화 기록을 한 번의 호출로 처리해야 할 때 Scout를 선택하세요.

Scout 사용해 보기 자세히 보기

Llama 4 Maverick

128개 전문가, 400B 파라미터 - 품질 플래그십

128개 전문가에 걸쳐 총 400B 파라미터, 토큰당 17B 활성. 주요 벤치마크에서 GPT-4o를 능가합니다. 이 사이트의 기본 채팅 모델입니다.

추론, 코딩, 멀티모달 분석, 복잡한 작업 완수에서 최고 품질이 필요할 때 Maverick을 선택하세요.

Maverick 사용해 보기 자세히 보기

장문맥

Llama 4 Scout

총 109B, 17B 활성, 16개 전문가. 1,000만 토큰 컨텍스트 윈도우.

적합한 용도: 전체 코드베이스, 다중 문서 분석, 긴 연구 논문, 장시간 대화.

지금 이용 가능

자세히 보기 다운로드

플래그십

Llama 4 Maverick

총 400B, 17B 활성, 128개 전문가. 벤치마크에서 GPT-4o 능가.

적합한 용도: 복잡한 추론, 코드 생성, 멀티모달 작업, 연구 종합.

지금 이용 가능

자세히 보기 다운로드

공통 기능

두 Llama 4 모델이 할 수 있는 것

Scout와 Maverick은 Meta의 MoE 아키텍처를 기반으로 공통된 기능 세트를 공유합니다.

네이티브 멀티모달

두 모델 모두 얼리 퓨전 아키텍처로 텍스트와 이미지를 네이티브로 처리합니다. 별도의 인코더나 파이프라인이 필요 없습니다.

MoE 효율성

두 모델 모두 토큰당 17B 파라미터만 활성화합니다. Scout는 16개 전문가(총 109B), Maverick은 128개 전문가(총 400B)를 사용합니다.

함수 호출

두 모델 모두 내장된 함수 호출로 에이전틱 워크플로를 지원합니다. 도구 사용을 위한 파인튜닝이 필요 없습니다.

확장된 컨텍스트

Scout: 1,000만 토큰. Maverick: 100만 토큰. 두 모델 모두 이전 세대의 한계를 크게 넘어섭니다.

다국어 지원

글로벌 애플리케이션을 위해 두 모델 모두 강력한 다국어 지원을 제공합니다.

오픈 웨이트

두 모델 모두 Llama 3.1 호환 라이선스 하에 완전한 오픈 웨이트입니다. 어디서든 배포하고 자유롭게 수정하세요.

빠른 선택 가이드

어떤 모델을 선택해야 할까요?

주요 사용 사례에 맞는 Llama 4 변형을 매칭하세요.

Scout를 선택해야 할 때

매우 긴 문서를 처리해야 할 때 (1,000만 토큰)
수백 개 파일에 걸친 전체 코드베이스 분석
다중 문서 연구 및 종합
장시간 대화 기록
더 낮은 메모리 요구사항 (총 109B vs 400B)

Maverick을 선택해야 할 때

최고 품질이 우선일 때
복잡한 추론 및 과학 작업
코드 생성 및 디버깅
멀티모달 분석 (스크린샷, 다이어그램)
벤치마크 성능이 가장 중요한 작업

채팅 시작 전체 벤치마크 보기

성능

전체 벤치마크 비교

Scout는 컨텍스트 길이에, Maverick은 순수 품질에 최적화되어 있습니다. 두 모델 모두 설계 목표 대비 강력한 성능을 제공합니다.

Scout와 Maverick 사이의 선택은 주요 필요에 따라 달라집니다: 대규모 컨텍스트 또는 최고 품질. 주요 벤치마크에서의 비교 결과입니다.

채팅 시작 모델 카드 보기

Maverick: MMLU Pro 80.5%, MMMU 73.4%, 코딩에서 GPT-4o 능가

Scout: 1,000만 토큰 컨텍스트, 8M 토큰에서 95% 이상 검색 정확도

공통: 17B 활성 파라미터, 네이티브 멀티모달, 함수 호출

공통: Llama 3.1 호환 라이선스 하의 오픈 웨이트

전체 비교

Scout vs Maverick 나란히 비교

추론, 코딩, 멀티모달, 배포 지표에 걸친 전체 벤치마크 결과.

Benchmark	Maverick 128개 전문가 플래그십	Scout 16개 전문가 장문맥
MMLU Pro 지식 및 추론	80.5%	74.3%
GPQA Diamond 과학 지식	69.8%	57.2%
LiveCodeBench v5 코딩	43.4%	32.8%
MMMU 멀티모달	73.4%	69.4%
Context Window 최대 토큰	1M	10M
Total Parameters 모델 크기	400B	109B
Active Parameters 토큰당	17B	17B
Number of Experts MoE 라우팅	128	16

Meta 공식 모델 카드 및 독립 평가 데이터 기반.

Scout

Scout: 컨텍스트 길이가 모든 것일 때

Scout의 1,000만 토큰 컨텍스트 윈도우는 비교 불가합니다. 전체 코드베이스, 다중 문서 연구 세트, 수 시간 분량의 녹취록을 한 번의 호출로 처리할 수 있습니다. 매우 긴 입력이 필요한 작업이라면 Scout가 확실한 선택입니다.

1,000만 토큰 컨텍스트 - 오픈 모델 중 최장
8M 토큰까지 95% 이상 검색 정확도
16개 전문가에 걸쳐 총 109B 파라미터
전체 GitHub 리포지토리를 처리하여 포괄적인 코드 리뷰를 수행합니다
법률 문서 분석, 연구 종합, 감사 워크플로에 적합합니다

Scout 사용해 보기 Scout 상세 정보

Maverick

Maverick: 품질이 우선일 때

Maverick의 128개 전문가 아키텍처는 프론티어급 성능을 제공합니다. 주요 벤치마크에서 GPT-4o를 능가하며, 복잡한 추론, 코딩, 멀티모달 작업을 손쉽게 처리하기 때문에 이 사이트의 기본 모델로 선정되었습니다.

MMLU Pro 80.5% - 프론티어 지식 및 추론
코딩 벤치마크에서 GPT-4o 능가
128개 전문가에 걸쳐 총 400B 파라미터
이미지와 문서의 강력한 멀티모달 이해를 위한 MMMU 73.4%
자율 에이전트 워크플로 구축을 위한 네이티브 함수 호출

Maverick 사용해 보기 Maverick 상세 정보

선택 가이드

Llama 4 모델 중 올바른 옵션 선택하기

Llama 4 모델 사이의 선택은 특정 워크플로에서 무엇이 가장 중요한지에 달려 있습니다. 두 모델 모두 17B 활성 파라미터와 네이티브 멀티모달 지원을 공유하므로, 결정은 컨텍스트 길이 대 출력 품질로 귀결됩니다. 많은 팀이 파이프라인의 서로 다른 부분에 두 변형을 함께 활용하는 데서 가치를 찾습니다.

한 번에 100만 토큰 이상을 처리해야 하는 작업에는 Scout를 선택하세요
출력 품질과 추론 깊이가 가장 중요한 작업에는 Maverick을 선택하세요
두 모델 모두 17B 활성 파라미터를 공유하므로 토큰당 추론 비용이 비슷합니다
수집 및 분석에는 Scout를, 종합 및 생성에는 Maverick을 활용하세요
두 모델 모두 동일한 오픈 웨이트 라이선스로 운영되므로 어느 쪽이든 또는 둘 다 자유롭게 배포할 수 있습니다

지금 사용해 보기

Llama 4와 채팅 시작

채팅 인터페이스를 통해 두 모델을 바로 사용해 보세요.

채팅 시작

설정 없이 바로 Llama 4 모델과 채팅

모델 카드

두 변형의 전체 기술 사양

문서

통합 가이드 및 모범 사례

다운로드

모델 가중치 받기

Llama 4 변형의 공식 가중치를 다운로드하세요.

Hugging Face

모든 Llama 4 모델 리포지토리

Ollama

Ollama로 로컬에서 실행

GitHub

소스 코드 및 예제

FAQ

Llama 4 모델에 대해 자주 묻는 질문

프로젝트에 맞는 Llama 4 모델을 선택하고, 실행하고, 배포하는 방법에 관해 가장 많이 묻는 질문에 대한 답변입니다.

현재 사용 가능한 Llama 4 모델은 몇 가지인가요?

현재 두 가지 Llama 4 모델이 있습니다: Scout와 Maverick. 각 모델은 두 가지 변형으로 제공됩니다. 채팅과 작업 완수에 최적화된 인스트럭션 튜닝 버전과, 파인튜닝 및 연구를 위한 베이스 사전 학습 버전입니다. 즉, 바로 사용 가능한 대화형 모델이 필요한지, 맞춤 학습을 위한 기반 모델이 필요한지에 따라 총 4개의 체크포인트 중 선택할 수 있습니다.

코딩 작업에는 어떤 Llama 4 모델이 가장 좋은가요?

코딩 작업에는 Maverick이 더 강력한 선택입니다. LiveCodeBench v5에서 43.4%를 기록하며 Scout(32.8%)와 GPT-4o(37.0%) 모두를 앞섭니다. 128개 전문가 아키텍처가 다양한 프로그래밍 언어와 프레임워크에 걸쳐 깊은 전문성을 제공합니다. 다만 대규모 코드베이스 전체를 한 번에 분석해야 한다면, Scout의 1,000만 토큰 컨텍스트 윈도우를 통해 모든 것을 단일 호출로 로드하여 파일 간 분석을 수행할 수 있습니다.

소비자용 GPU에서 Llama 4 모델을 실행할 수 있나요?

전체 버전을 실행하려면 멀티 GPU 구성이 필요합니다. Scout는 전체 정밀도에서 약 220 GB, Maverick은 약 800 GB의 VRAM이 필요합니다. 하지만 양자화 버전을 사용하면 요구사항을 크게 줄일 수 있습니다. INT4 양자화를 적용한 Scout는 약 55 GB에 맞출 수 있어 멀티 GPU 고성능 소비자 장비에서도 실행 가능합니다. INT4를 적용한 Maverick도 약 200 GB가 필요하므로 클라우드나 엔터프라이즈 하드웨어에 더 적합합니다.

Llama 4 패밀리에서 Scout와 Maverick의 차이점은 무엇인가요?

Scout는 1,000만 토큰 윈도우와 16개 전문가(총 109B 파라미터)로 장문맥 작업에 최적화되어 있습니다. Maverick은 128개 전문가와 400B 총 파라미터로 출력 품질을 우선시하지만 컨텍스트 윈도우는 100만 토큰입니다. 두 모델 모두 토큰당 17B 파라미터를 활성화합니다. 같은 카메라 시스템에서 Scout는 광각 렌즈, Maverick은 고해상도 렌즈라고 생각하면 됩니다.

모든 Llama 4 모델은 무료 오픈 웨이트인가요?

네. 모든 Llama 4 모델은 상업적 사용, 파인튜닝, 재배포를 허용하는 Llama 3.1 호환 라이선스로 출시되었습니다. 자체 인프라에 배포하고, 그 위에 제품을 구축하고, 특정 요구에 맞게 가중치를 수정할 수 있습니다. 다만 수억 명의 사용자를 대상으로 하는 매우 대규모 배포에 대한 사용 기준이 포함되어 있습니다.

문서 분석에는 어떤 Llama 4 모델을 선택해야 하나요?

문서의 양과 복잡도에 따라 다릅니다. 대량의 문서, 계약서, 연구 논문 컬렉션을 한 번에 분석해야 한다면 Scout의 1,000만 토큰 컨텍스트 윈도우가 이상적입니다. 짧은 문서에서 최고 품질의 추출, 요약, 추론이 필요하다면 Maverick의 128개 전문가 아키텍처가 더 정교하고 정확한 결과를 제공합니다. 두 모델 모두 차트, 표, 다이어그램이 포함된 문서를 위한 네이티브 이미지 이해를 지원합니다.

Llama 4 패밀리