Llama 4 Maverick

400Bパラメータ、128エキスパート - Meta 最高性能のオープンモデル

Llama 4 Maverick は、複数のベンチマークカテゴリで GPT-4o を一貫して上回る初のオープンウェイトモデルです。128の専門エキスパートを通じてルーティングされる総パラメータ400B、トークンあたりわずか17Bアクティブで、プロプライエタリ API のコストなしにフロンティアクラスの推論、コーディング、マルチモーダル理解を実現します。高度なコード生成、科学的分析、画像理解のいずれが必要でも、Llama 4 Maverick はクローズドソースのリーダーと同等の品質を、どこにでもデプロイ可能なオープンウェイトパッケージで提供します。

チャットを始めるベンチマークを見る

モデルバリアント

Instruction-tuned モデルとベースモデル

チャットや複雑なタスクに最適化された Instruction-tuned バリアントと、ファインチューニングや研究向けのベースモデルから選べます。

128エキスパート MoE アーキテクチャ

総パラメータ400B、トークンあたり17Bアクティブ

Maverick は Scout の16エキスパートから128エキスパートにスケールアップし、トークンあたり同じ17Bアクティブのフットプリントを維持しながら総パラメータ400Bを搭載しています。これにより、推論、コーディング、マルチモーダル能力が大幅に強化されています。

このサイトのデフォルトチャットモデルです。最高品質が求められるタスクに最適：複雑な推論、コード生成、マルチモーダル分析、研究の統合。

チャットを始める機能を見る

Instruction-tuned

Maverick Instruct

会話型 AI、複雑な推論、コード生成に最適化

RLHF で指示追従とマルチターン対話向けにファインチューニング済み

利用可能

チャットを始める重みをダウンロード

事前学習済み

Maverick Base

ファインチューニングや特化アプリケーション向けの基盤 MoE モデル

128エキスパートルーティングで多様なマルチモーダルデータを事前学習

利用可能

HuggingFace で見るドキュメント

機能

Llama 4 Maverick のフロンティア性能

Llama 4 Maverick は128エキスパート MoE の効率性と高度な推論、強力なコーディング、ネイティブマルチモーダル理解を兼ね備えています。すべての機能がトークンあたり17Bアクティブパラメータで最高品質を発揮するよう調整されており、プロプライエタリなフロンティアモデルの実用的な代替となります。

128エキスパート MoE

128のプールから各トークンを専門エキスパートにルーティングします。総パラメータ400Bがトークンあたりわずか17Bの推論コストでフロンティア品質を実現します。このアーキテクチャにより、各エキスパートが数学から創作文まで特定の領域で深い専門性を発達させ、多様なタスクで一貫して高い品質を生み出します。

高度な推論

MMLU Pro（80.5%）と GPQA Diamond（69.8%）での高い性能は、深い知識と科学的推論能力を示しています。Llama 4 Maverick は多段階の論理、数学的証明、複雑な分析タスクを、プロプライエタリな代替モデルに匹敵またはそれを超える精度で処理します。128エキスパートアーキテクチャにより、各推論ステップで異なるエキスパートが専門知識を提供します。

コード生成

LiveCodeBench v5 を含むコーディングベンチマークで GPT-4o を上回ります。Llama 4 Maverick は数十のプログラミング言語で本番品質のコードを生成し、複雑な問題をデバッグし、アルゴリズムのアプローチを明確に説明します。ネイティブの関数呼び出しにより、モデルが自律的にコードを実行し、API を呼び出し、ツール操作を連鎖させるエージェントワークフローが可能です。

100万トークンコンテキスト

100万トークンのコンテキストウィンドウ内で、長いドキュメント、コードベース、長時間の会話を処理できます。Scout は極端なロングコンテキストタスク向けに1,000万トークンを提供しますが、Llama 4 Maverick の100万トークンウィンドウは、プロジェクト全体の分析、長い研究論文、数百回のやり取りにわたるマルチターン会話など、ほとんどの本番ユースケースに十分です。

ネイティブマルチモーダル

Early Fusion アーキテクチャにより、テキストと画像を基盤から一体的にネイティブ処理します。スクリーンショット、図表、チャート、技術図面、ドキュメントをテキストと並行して分析でき、別途ビジョンパイプラインは不要です。Llama 4 Maverick は MMMU で73.4%を記録し、専用ビジョンモデルに匹敵する強力な視覚推論を実証しています。

多言語対応

複数言語にわたる高い性能により、Llama 4 Maverick はグローバルなアプリケーションに適しています。翻訳、言語横断の推論、文化的にニュアンスのあるコンテンツ生成を一貫した品質で処理します。英語、中国語、スペイン語、フランス語、その他の対応言語のいずれでも、出力品質は高いレベルを維持します。

主なハイライト

Llama 4 Maverick が際立つ理由

Llama 4 Maverick は、複数のベンチマークカテゴリで GPT-4o を一貫して上回る初のオープンウェイトモデルです。

ベンチマークハイライト

MMLU Pro 80.5% - フロンティアプロプライエタリモデルと競合
GPQA Diamond 69.8% - 強力な科学的推論
MMMU 73.4% - 優れたマルチモーダル理解
コーディングベンチマークで GPT-4o を上回る
Arena ELO がトップティアモデルと競合

技術仕様

総パラメータ400B、トークンあたり17Bアクティブ
MoE アーキテクチャで128エキスパート
100万トークンコンテキストウィンドウ
ネイティブマルチモーダル（テキスト＋画像）
Llama 3.1 互換ライセンス

無料チャットを始める重みをダウンロード

性能

Llama 4 Maverick のフロンティア品質

Llama 4 Maverick は MMLU Pro で80.5%、MMMU で73.4%を達成し、トークンあたりわずか17Bパラメータのアクティブで複数のベンチマークで GPT-4o を上回ります。

ベンチマーク結果は説得力のあるストーリーを語りますが、Llama 4 Maverick が真価を発揮するのは実際の使用場面です。開発者からは、コード生成の品質が最高のプロプライエタリモデルに匹敵し、ハルシネーションが少なく関数実装の精度が高いと報告されています。研究者は、科学的推論タスクで構造化された引用対応の回答が得られると評価しています。128エキスパートアーキテクチャにより、モデルは各サブタスクに深い専門知識を活用でき、ジェネラリストではなくドメインエキスパートのような出力を生み出します。

チャットを始めるモデルカードを見る

MMLU Pro 80.5% - フロンティアクラスの知識と推論

GPQA Diamond 69.8% - 強力な科学的推論

MMMU 73.4% - 優れたマルチモーダル理解

コーディングベンチマークで GPT-4o を上回る

総パラメータ400Bから17Bアクティブ（128エキスパート）

ベンチマーク比較

Maverick vs Scout と前世代モデル

Maverick の128エキスパートアーキテクチャは、Scout と Llama 3.1 に対してすべてのカテゴリで大幅な改善を実現しています。

Benchmark	Llama 4 Maverick 128エキスパート注目	Llama 4 Scout 16エキスパート	Llama 3.1 70B Dense	GPT-4o プロプライエタリ
MMLU Pro 知識と推論	80.5%	74.3%	66.4%	78.4%
GPQA Diamond 科学的知識	69.8%	57.2%	46.7%	53.6%
LiveCodeBench v5 コーディング	43.4%	32.8%	28.5%	37.0%
MMMU マルチモーダル	73.4%	69.4%	-	69.1%
Context Window 最大トークン数	1M	10M	128K	128K
Total Parameters モデルサイズ	400B	109B	70B	-
Active Parameters トークンあたり	17B	17B	70B	-

データは Meta の公式モデルカードおよび独立した評価に基づきます。

128エキスパートスケール

Llama 4 Maverick が400Bの容量を17Bのコストで実現する仕組み

Llama 4 Maverick の128エキスパート MoE アーキテクチャは、Scout の16エキスパートからの大幅なスケールアップです。各トークンは専門エキスパートにルーティングされ、モデルは400Bパラメータの知識にアクセスしながら、フォワードパスあたりわずか17Bのみをアクティブにします。この設計により、フロンティアクラスの計算要件なしにフロンティアクラスの品質を実現します。

Scout の16に対して128エキスパートで、トークンあたり8倍の専門性
Scout の109Bに対して総パラメータ400Bで、より深い知識容量
Scout と同じトークンあたり17Bアクティブパラメータコストで効率的な推論
各エキスパートが学習中に深いドメイン専門性を発達
スパースルーティングがすべての入力に最適なエキスパート選択を保証

チャットを始めるベンチマークを見る

Llama 4 Maverick 128-expert MoE architecture

マルチモーダル

Llama 4 Maverick のネイティブ画像理解

Llama 4 Maverick は Early Fusion アーキテクチャを使用し、テキストと画像をネイティブに一緒に処理します。視覚的な理解は別モジュールとして後付けされたものではなく、モデルの基盤から組み込まれています。これにより、両方のモダリティにわたるシームレスな推論と、視覚ベンチマークでの高い性能を実現しています。

MMMU マルチモーダルベンチマークで73.4%、GPT-4o の69.1%を上回る
Early Fusion アーキテクチャで別途パイプラインなしにネイティブマルチモーダル処理
スクリーンショット、図表、チャート、技術ドキュメントを高精度で分析
視覚分析とコード生成を組み合わせた UI 開発ワークフロー
テキストと埋め込み画像の両方を含む混合コンテンツドキュメントを処理

マルチモーダルチャットを試す詳しく見る

Llama 4 Maverick multimodal capabilities

コーディング

Llama 4 Maverick でのコーディングと関数呼び出し

Llama 4 Maverick はコーディングベンチマークで GPT-4o を上回り、自律エージェントワークフロー構築のためのネイティブ関数呼び出しを搭載しています。本番コードの生成、複雑な問題のデバッグ、ツール使用エージェントの構築のいずれでも、128エキスパートアーキテクチャがプログラミング言語やフレームワークにわたる専門知識を提供します。

LiveCodeBench v5 で43.4%、同ベンチマークでの GPT-4o の37.0%を上回る
ネイティブ関数呼び出しでファインチューニングなしに自律エージェントワークフローを実現
Python、JavaScript、TypeScript、Rust など多数の言語で本番品質のコードを生成
コードベース全体のコンテキストを把握した複雑なマルチファイル問題のデバッグ
エージェントアプリケーションでのエンドツーエンドタスク自動化のための複数ツール呼び出しの連鎖

始める

Llama 4 Maverick を今すぐ試す

すぐにチャットを開始するか、セルフホスト用の重みをダウンロードできます。

Maverick とチャット

Llama 4 Maverick をすぐに試せます - セットアップ不要

モデルカード

完全な技術仕様とベンチマーク

ドキュメント

統合ガイドとベストプラクティス

ダウンロードとデプロイ

セルフホストデプロイ

お使いのインフラにデプロイするための公式モデル重みをダウンロードできます。

Hugging Face

Llama 4 Maverick 公式モデルリポジトリ

Ollama

Ollama でローカル実行

GitHub

ソースコードとサンプル

FAQ

Llama 4 Maverick に関するよくある質問

Llama 4 Maverick の性能、デプロイ、実用的な活用方法について、よく寄せられる質問への回答です。

Llama 4 Maverick は本当にベンチマークで GPT-4o を上回っていますか？

はい。Llama 4 Maverick はいくつかの主要ベンチマークで GPT-4o を上回っています。MMLU Pro で80.5%（GPT-4o は78.4%）、GPQA Diamond で69.8%（53.6%）、LiveCodeBench v5 で43.4%（37.0%）を記録しています。マルチモーダルタスクでは MMMU で73.4%（GPT-4o は69.1%）を達成しています。これらの結果は Meta の公式評価と独立したテストに基づいています。

Llama 4 Maverick を実行するには何台の GPU が必要ですか？

Llama 4 Maverick をフル精度で実行するには約800 GBの VRAM が必要で、通常は A100 80 GB GPU 8台以上のクラスターが必要です。INT8 量子化で約400 GB（A100 GPU 約5台）に削減できます。INT4 量子化ではさらに約200 GBまで削減可能です。ローカルデプロイが現実的でない場合は、クラウドプロバイダーがホスト型 API アクセスも提供しています。

Llama 4 Maverick の128エキスパートアーキテクチャの特長は何ですか？

128エキスパートの Mixture of Experts アーキテクチャにより、Llama 4 Maverick は400Bパラメータの知識を格納しながら、推論時にはトークンあたり17Bのみをアクティブにします。各エキスパートは学習中に深い専門性を発達させるため、ルーティングメカニズムが各入力に最も関連性の高いエキスパートを選択できます。これにより、400Bの密なモデルの知識の深さを、ごく一部の計算コストで実現しています。

Llama 4 Maverick を商用プロジェクトに使用できますか？

はい。Llama 4 Maverick は Llama 3.1 互換ライセンスの下でリリースされており、商用利用が許可されています。製品の構築、サービスのデプロイ、特定のビジネスニーズに合わせたモデルのファインチューニングが可能です。非常に大規模なデプロイメントには使用量しきい値が含まれているため、月間アクティブユーザーが数億人規模のアプリケーションの場合はライセンス全文をご確認ください。

Llama 4 Maverick は画像理解をどのように処理しますか？

Llama 4 Maverick は Early Fusion アーキテクチャを使用しています。つまり、画像理解は別途ビジョンエンコーダーとして追加されたものではなく、モデルの基盤から組み込まれています。テキストと画像を統合ストリームで処理し、両方のモダリティにわたる自然な推論を可能にします。MMMU で73.4%を記録し、チャート、図表、スクリーンショット、ドキュメントの理解を必要とするタスクで高い性能を示しています。

API 経由で Llama 4 Maverick にアクセスする最適な方法は何ですか？

AWS、Google Cloud、Azure のサービスや、Together AI、Fireworks、Groq などの専門推論プラットフォームを含む複数のクラウドプロバイダーが、Llama 4 Maverick のホスト型 API アクセスを提供しています。vLLM や TGI などのフレームワークを使用してセルフホストすることも可能です。手軽に試したい場合は、このサイトのチャットインターフェースがセットアップ不要で Llama 4 Maverick をデフォルトモデルとして実行しています。

Llama 4 ファミリー