Llama 4 Maverick

400B 파라미터, 128개 전문가 - Meta의 가장 강력한 오픈 모델

Llama 4 Maverick은 Meta의 플래그십 MoE 모델입니다. 128개 전문가를 통해 라우팅되는 총 400B 파라미터에서 토큰당 17B만 활성화하여, 완전한 오픈 웨이트를 유지하면서 주요 벤치마크에서 GPT-4o를 능가하는 프론티어급 성능을 제공합니다.

채팅 시작 벤치마크 보기

모델 변형

인스트럭션 튜닝 모델과 베이스 모델

채팅 및 복잡한 작업에 최적화된 인스트럭션 튜닝 버전과, 파인튜닝 및 연구를 위한 베이스 모델 중 선택하세요.

128개 전문가 MoE 아키텍처

총 400B 파라미터, 토큰당 17B 활성

Maverick은 Scout의 16개에서 128개 전문가로 확장하여, 토큰당 동일한 17B 활성 풋프린트를 유지하면서 총 400B 파라미터를 갖추고 있습니다. 이를 통해 추론, 코딩, 멀티모달 능력이 크게 향상됩니다.

이 사이트의 기본 채팅 모델입니다. 최고 품질이 필요한 작업에 적합합니다: 복잡한 추론, 코드 생성, 멀티모달 분석, 연구 종합.

채팅 시작 기능 보기

인스트럭션 튜닝

Maverick Instruct

대화형 AI, 복잡한 추론, 코드 생성에 최적화

지시 따르기 및 멀티턴 대화를 위해 RLHF로 파인튜닝

지금 이용 가능

채팅 시작 가중치 다운로드

사전 학습

Maverick Base

파인튜닝 및 특수 애플리케이션을 위한 기반 MoE 모델

128개 전문가 라우팅으로 다양한 멀티모달 데이터에 사전 학습

지금 이용 가능

HuggingFace에서 보기 문서

기능

오픈 웨이트 모델의 프론티어 성능

Llama 4 Maverick은 128개 전문가 MoE 효율성에 고급 추론, 강력한 코딩, 네이티브 멀티모달 이해를 결합합니다 - 모두 토큰당 17B 활성 파라미터로 구현됩니다.

128개 전문가 MoE

128개 풀에서 전문화된 전문가를 통해 각 토큰을 라우팅합니다. 총 400B 파라미터가 토큰당 17B 추론 비용으로 프론티어 품질을 제공합니다.

고급 추론

MMLU Pro (80.5%) 및 GPQA Diamond (69.8%)에서 강력한 성능을 보입니다. 복잡한 추론 작업에서 독점 모델과 경쟁합니다.

코드 생성

코딩 벤치마크에서 GPT-4o를 능가합니다. 네이티브 함수 호출로 에이전틱 워크플로와 자율 코드 실행이 가능합니다.

1M 토큰 컨텍스트

긴 문서, 코드베이스, 장시간 대화를 처리합니다. 대부분의 프로덕션 사용 사례에 충분합니다.

네이티브 멀티모달

얼리 퓨전 아키텍처로 텍스트와 이미지를 네이티브로 함께 처리합니다. 스크린샷, 다이어그램, 문서를 텍스트와 함께 분석하세요.

다국어 지원

여러 언어에서 강력한 성능을 발휘합니다. 문화적 맥락 이해와 함께 글로벌 애플리케이션을 위해 설계되었습니다.

주요 하이라이트

Maverick이 돋보이는 이유

Maverick은 여러 벤치마크 카테고리에서 GPT-4o를 일관되게 능가하는 최초의 오픈 웨이트 모델입니다.

벤치마크 하이라이트

MMLU Pro 80.5% - 프론티어 독점 모델과 경쟁
GPQA Diamond 69.8% - 강력한 과학적 추론
MMMU 73.4% - 우수한 멀티모달 이해
코딩 벤치마크에서 GPT-4o 능가
최상위 모델과 경쟁하는 Arena ELO

기술 사양

총 400B 파라미터, 토큰당 17B 활성
MoE 아키텍처에 128개 전문가
1M 토큰 컨텍스트 윈도우
네이티브 멀티모달 (텍스트 + 이미지)
Llama 3.1 호환 라이선스

무료 채팅 시작 가중치 다운로드

성능

오픈 웨이트 MoE 모델의 프론티어 품질

Llama 4 Maverick은 MMLU Pro 80.5%, MMMU 73.4%를 달성하며, 토큰당 17B 파라미터만 활성화하면서 여러 벤치마크에서 GPT-4o를 능가합니다.

Maverick은 오픈 웨이트 모델이 최고의 독점 모델과 경쟁할 수 있음을 보여줍니다. 128개 전문가 아키텍처가 추론, 코딩, 멀티모달 작업 전반에서 일관된 우수성을 제공합니다.

채팅 시작 모델 카드 보기

MMLU Pro 80.5% - 프론티어급 지식 및 추론

GPQA Diamond 69.8% - 강력한 과학적 추론

MMMU 73.4% - 우수한 멀티모달 이해

코딩 벤치마크에서 GPT-4o 능가

총 400B에서 17B 활성 파라미터 (128개 전문가)

벤치마크 비교

Maverick vs Scout 및 이전 세대

Maverick의 128개 전문가 아키텍처는 모든 카테고리에서 Scout와 Llama 3.1 대비 크게 향상된 성능을 보여줍니다.

Benchmark	Llama 4 Maverick 128개 전문가 주요 모델	Llama 4 Scout 16개 전문가	Llama 3.1 70B 밀집 모델	GPT-4o 독점 모델
MMLU Pro 지식 및 추론	80.5%	74.3%	66.4%	78.4%
GPQA Diamond 과학 지식	69.8%	57.2%	46.7%	53.6%
LiveCodeBench v5 코딩	43.4%	32.8%	28.5%	37.0%
MMMU 멀티모달	73.4%	69.4%	-	69.1%
Context Window 최대 토큰	1M	10M	128K	128K
Total Parameters 모델 크기	400B	109B	70B	-
Active Parameters 토큰당	17B	17B	70B	-

Meta 공식 모델 카드 및 독립 평가 데이터 기반.

128개 전문가 규모

400B 용량을 17B 추론 비용으로

Maverick의 128개 전문가 MoE 아키텍처는 Scout의 16개 전문가에서 크게 확장된 것입니다. 각 토큰이 전문화된 전문가로 라우팅되어, 순전파당 17B만 활성화하면서 400B 파라미터의 지식에 접근할 수 있습니다.

Scout의 16개 대비 128개 전문가 - 8배 더 많은 전문화
Scout의 109B 대비 총 400B 파라미터
Scout와 동일한 토큰당 17B 활성 파라미터 비용
각 전문가는 학습 과정에서 깊은 도메인 전문성을 발전시킵니다
희소 라우팅으로 모든 입력에 최적의 전문가를 선택합니다

채팅 시작 벤치마크 보기

Llama 4 Maverick 128-expert MoE architecture

멀티모달

네이티브 텍스트 및 이미지 이해

Maverick은 얼리 퓨전 아키텍처를 사용하여 텍스트와 이미지를 네이티브로 함께 처리합니다. 시각적 이해가 별도 모듈로 추가된 것이 아니라 모델에 처음부터 내장되어 있습니다.

MMMU 멀티모달 벤치마크 73.4%
네이티브 멀티모달 처리를 위한 얼리 퓨전 아키텍처
스크린샷, 다이어그램, 차트, 문서 분석
UI 개발 워크플로에서 시각적 분석과 코드 생성을 결합합니다
텍스트와 이미지가 혼합된 복합 문서를 처리합니다

멀티모달 채팅 시도 자세히 보기

Llama 4 Maverick multimodal capabilities

코딩

Llama 4 Maverick으로 코딩 및 함수 호출

Llama 4 Maverick은 코딩 벤치마크에서 GPT-4o를 능가하며, 자율 에이전트 워크플로 구축을 위한 네이티브 함수 호출을 지원합니다. 프로덕션 코드 생성, 복잡한 문제 디버깅, 도구를 활용하는 에이전트 구축 등 어떤 작업이든 128개 전문가 아키텍처가 다양한 프로그래밍 언어와 프레임워크에 걸쳐 전문화된 지식을 제공합니다.

LiveCodeBench v5에서 43.4%로 동일 벤치마크에서 GPT-4o의 37.0%를 초과
네이티브 함수 호출로 파인튜닝 없이 자율 에이전트 워크플로 구현 가능
Python, JavaScript, TypeScript, Rust 등 다양한 언어로 프로덕션 수준의 코드 생성
코드베이스 전체 컨텍스트 인식으로 복잡한 멀티 파일 문제 디버깅
에이전틱 애플리케이션에서 여러 도구 호출을 연결하여 엔드투엔드 작업 자동화

시작하기

지금 Llama 4 Maverick을 사용해 보세요

바로 채팅을 시작하거나 셀프 호스팅 배포를 위해 가중치를 다운로드하세요.

Maverick과 채팅

설정 없이 바로 Llama 4 Maverick을 사용해 보세요

모델 카드

전체 기술 사양 및 벤치마크

문서

통합 가이드 및 모범 사례

다운로드 및 배포

셀프 호스팅 배포

인프라에 배포하기 위한 공식 모델 가중치를 다운로드하세요.

Hugging Face

공식 Llama 4 Maverick 모델 리포지토리

Ollama

Ollama로 로컬 실행

GitHub

소스 코드 및 예제

FAQ

Llama 4 Maverick에 대해 자주 묻는 질문

Llama 4 Maverick의 성능, 배포, 실제 활용에 관해 가장 많이 묻는 질문에 대한 답변입니다.

Llama 4 Maverick이 정말 벤치마크에서 GPT-4o를 능가하나요?

네. Llama 4 Maverick은 여러 주요 벤치마크에서 GPT-4o를 앞섭니다. MMLU Pro에서 GPT-4o의 78.4% 대비 80.5%, GPQA Diamond에서 53.6% 대비 69.8%, LiveCodeBench v5에서 37.0% 대비 43.4%를 기록했습니다. 멀티모달 작업에서는 MMMU 기준 GPT-4o의 69.1% 대비 73.4%를 달성했습니다. 이 결과는 Meta의 공식 평가와 독립적인 테스트를 통해 확인된 수치입니다.

Llama 4 Maverick을 실행하려면 GPU가 몇 개 필요한가요?

전체 정밀도로 Llama 4 Maverick을 실행하려면 약 800 GB의 VRAM이 필요하며, 일반적으로 A100 80 GB GPU 8개 이상의 클러스터가 필요합니다. INT8 양자화를 적용하면 약 400 GB(A100 5개 수준)로 줄일 수 있습니다. INT4 양자화를 사용하면 약 200 GB까지 낮출 수 있습니다. 로컬 배포가 어려운 경우 클라우드 제공업체의 호스팅 API를 이용할 수도 있습니다.

Llama 4 Maverick의 128개 전문가 아키텍처가 특별한 이유는 무엇인가요?

128개 전문가 MoE 아키텍처 덕분에 Llama 4 Maverick은 400B 파라미터의 지식을 저장하면서도 추론 시 토큰당 17B만 활성화합니다. 각 전문가는 학습 과정에서 깊은 전문성을 쌓기 때문에, 라우팅 메커니즘이 각 입력에 가장 적합한 전문가를 선택할 수 있습니다. 이를 통해 400B 밀집 모델 수준의 지식 깊이를 훨씬 적은 연산 비용으로 구현합니다.

Llama 4 Maverick을 상업적 프로젝트에 사용할 수 있나요?

네. Llama 4 Maverick은 상업적 사용을 허용하는 Llama 3.1 호환 라이선스로 출시되었습니다. 제품 개발, 서비스 배포, 특정 비즈니스 요구에 맞는 파인튜닝이 모두 가능합니다. 다만 매우 대규모 배포에 대한 사용 기준이 포함되어 있으므로, 월간 활성 사용자가 수억 명에 달하는 서비스라면 전체 라이선스 조항을 꼭 확인하세요.

Llama 4 Maverick은 이미지 이해를 어떻게 처리하나요?

Llama 4 Maverick은 얼리 퓨전 아키텍처를 사용합니다. 이미지 이해가 별도의 비전 인코더로 추가된 것이 아니라 모델 설계 단계부터 내장되어 있습니다. 텍스트와 이미지를 하나의 통합된 스트림으로 처리하여 두 모달리티에 걸친 자연스러운 추론이 가능합니다. MMMU 기준 73.4%를 달성하며 차트, 다이어그램, 스크린샷, 문서 이해 작업에서 강력한 성능을 보여줍니다.

API를 통해 Llama 4 Maverick에 접근하는 가장 좋은 방법은 무엇인가요?

AWS, Google Cloud, Azure를 비롯해 Together AI, Fireworks, Groq 같은 전문 추론 플랫폼 등 여러 클라우드 제공업체에서 Llama 4 Maverick의 호스팅 API를 제공합니다. vLLM이나 TGI 같은 프레임워크를 사용해 직접 호스팅하는 것도 가능합니다. 빠른 실험을 원한다면 이 사이트의 채팅 인터페이스에서 별도 설정 없이 Llama 4 Maverick을 기본 모델로 바로 사용할 수 있습니다.

Llama 4 패밀리