Llama 4 Models

2つのモデル、1つのファミリー - ロングコンテキストからフロンティア品質まで

Llama 4 Models は、Meta がこれまでにリリースした中で最も野心的なオープンウェイトモデルファミリーです。異なる優先事項に対応する2つの Mixture of Experts アーキテクチャを搭載しています。Scout は16エキスパートで1,000万トークンウィンドウの大規模コンテキストを処理し、Maverick は128エキスパートと総パラメータ400Bでフロンティアクラスの品質を実現します。どちらもトークンあたり17Bアクティブパラメータとネイティブマルチモーダル対応を共有しており、ワークフローに合わせてコンテキスト長と出力品質の最適なバランスを柔軟に選択できます。

全モデル

Llama 4 Models から最適なモデルを選ぶ

Scout と Maverick は異なるシナリオに最適化されています。それぞれの強みを理解することで、コードベース全体の処理でも最高品質の推論やコード生成でも、ワークロードに合ったバリアントを選べます。

Llama 4 Scout

1,000万トークンコンテキストウィンドウ - ロングコンテキストのスペシャリスト

16エキスパートで総パラメータ109B、トークンあたり17Bアクティブ。最大の特長は、オープンモデルとして最長の1,000万トークンコンテキストウィンドウです。リポジトリ全体からマルチドキュメントの研究コレクションまで、大量の情報を一度に取り込むタスクで Scout は真価を発揮します。Needle-in-a-haystack テストでは800万トークンまで95%の検索精度を確認しています。

コードベース全体、マルチドキュメントの研究セット、非常に長い会話履歴を1回の呼び出しで処理する必要がある場合に Scout を選んでください。コンテキスト長がわずかな品質差よりも重要な場合に最適です。

Llama 4 Maverick

128エキスパート、400Bパラメータ - 品質のフラッグシップ

128エキスパートで総パラメータ400B、トークンあたり17Bアクティブ。Maverick は MMLU Pro、GPQA Diamond、LiveCodeBench を含む主要ベンチマークで GPT-4o を上回ります。128エキスパートアーキテクチャがドメイン全体にわたる深い専門性を提供し、推論、コーディング、マルチモーダルタスクで利用可能な最強のオープンウェイトモデルです。ほとんどの本番ニーズに対応する100万トークンコンテキストウィンドウを備えています。

推論、コーディング、マルチモーダル分析、複雑なタスク完了で最高品質が必要な場合に Maverick を選んでください。このサイトのデフォルトチャットモデルに選ばれているのには理由があります。

ロングコンテキスト

Llama 4 Scout

総109B、17Bアクティブ、16エキスパート。1,000万トークンコンテキストウィンドウ。

最適な用途:コードベース全体、マルチドキュメント分析、長い研究論文、長時間の会話。

利用可能

フラッグシップ

Llama 4 Maverick

総400B、17Bアクティブ、128エキスパート。ベンチマークで GPT-4o を上回る。

最適な用途:複雑な推論、コード生成、マルチモーダルタスク、研究の統合。

利用可能

共通機能

すべての Llama 4 Models でできること

Scout と Maverick は、Meta の Mixture of Experts アーキテクチャに基づく共通の機能セットを共有しています。この共通基盤により、統合コードを変更せずに2つのバリアント間を切り替えられます。

ネイティブマルチモーダル

両方の Llama 4 Models は Early Fusion アーキテクチャでテキストと画像をネイティブに処理します。視覚的な理解は別途エンコーダーとして追加されたものではなく、基盤から組み込まれています。スクリーンショット、図表、ドキュメントをテキストと一緒に含む混合コンテンツを送信でき、両方のモダリティにわたる一貫した推論が得られます。

MoE の効率性

両方の Llama 4 Models は、大きな総パラメータ数にもかかわらず、トークンあたりわずか17Bパラメータのみをアクティブにします。Scout は16エキスパートで総109B、Maverick は128エキスパートで総400Bを使用します。このスパースルーティング戦略により、同等の密なアーキテクチャのごく一部の計算コストで高い性能を発揮します。

関数呼び出し

両方の Llama 4 Models に組み込まれた関数呼び出しにより、追加のファインチューニングなしでエージェントワークフローを実現できます。ツールを定義すれば、モデルがいつどのように呼び出すかを判断します。データベースへのクエリ、API 呼び出し、コード実行、操作の連鎖を行う自律エージェントの構築が容易になります。

拡張コンテキスト

Scout は極端なロングドキュメントタスク向けに1,000万トークンのコンテキストウィンドウを提供し、Maverick はほとんどの本番シナリオ向けに100万トークンを提供します。どちらも前世代モデルの128K制限を大幅に超えており、リクエストごとにより多くのコンテキスト、例、履歴を含める余裕があります。

多言語対応

両方の Llama 4 Models の強力な多言語サポートにより、グローバルなアプリケーションが可能です。英語、中国語、スペイン語、フランス語、その他の対応言語のいずれでも、両バリアントが文化的に配慮された一貫した品質の応答を維持します。

オープンウェイト

両方の Llama 4 Models は Llama 3.1 互換ライセンスの下で完全にオープンウェイトです。どこにでもデプロイでき、自由に変更でき、特定のニーズに合わせてファインチューニングできます。このオープン性により、ベンダーロックインなし、モデル動作の完全な透明性、自社インフラでの完全な運用が可能です。

クイック選択ガイド

Llama 4 Models のどちらを選ぶべきですか?

主なユースケースに合わせて最適なバリアントを選びましょう。

Scout を選ぶ場合

  • 非常に長いドキュメントの処理が必要(1,000万トークン)
  • 数百ファイルにわたるコードベース全体の分析
  • マルチドキュメントの研究と統合
  • 長時間の会話履歴
  • メモリ要件が低い(総109B vs 400B)

Maverick を選ぶ場合

  • 最高品質が最優先
  • 複雑な推論と科学的タスク
  • コード生成とデバッグ
  • マルチモーダル分析(スクリーンショット、図表)
  • ベンチマーク性能が最も重要なタスク

性能

Llama 4 Models の完全ベンチマーク比較

Scout はコンテキスト長に最適化、Maverick は生の品質に最適化。どちらも設計目標に対して高い性能を発揮します。

Llama 4 Models の選択は、主なニーズに帰着します。大量のテキスト、コード、ドキュメントを1回の呼び出しで処理するワークフローなら、Scout の1,000万トークンコンテキストウィンドウは他に類を見ません。推論、コーディング、マルチモーダルタスクで最高品質が必要なら、Maverick の128エキスパートアーキテクチャが最高のプロプライエタリモデルと競合するフロンティアクラスの結果を提供します。多くのチームが両方を使い分けています:品質重視のタスクに Maverick、大規模分析に Scout という組み合わせです。

Llama 4 ファミリー性能比較

Maverick:MMLU Pro 80.5%、MMMU 73.4%、コーディングで GPT-4o を上回る

Scout:1,000万トークンコンテキスト、800万トークンで95%以上の検索精度

両方:17Bアクティブパラメータ、ネイティブマルチモーダル、関数呼び出し

両方:Llama 3.1 互換ライセンスでオープンウェイト

完全比較

Scout vs Maverick 並列比較

推論、コーディング、マルチモーダル、デプロイメント指標にわたる完全なベンチマーク結果。

Benchmark
Maverick
128エキスパート
フラッグシップ
Scout
16エキスパート
ロングコンテキスト
MMLU Pro
知識と推論
80.5%74.3%
GPQA Diamond
科学的知識
69.8%57.2%
LiveCodeBench v5
コーディング
43.4%32.8%
MMMU
マルチモーダル
73.4%69.4%
Context Window
最大トークン数
1M10M
Total Parameters
モデルサイズ
400B109B
Active Parameters
トークンあたり
17B17B
Number of Experts
MoE ルーティング
12816

データは Meta の公式モデルカードおよび独立した評価に基づきます。

Scout

Llama 4 Scout:コンテキスト長がすべてのとき

Scout の1,000万トークンコンテキストウィンドウは、Llama 4 Models の中でもオープンウェイト全体でも他に類を見ません。コードベース全体、マルチドキュメントの研究セット、数時間分のトランスクリプトを1回の呼び出しで処理できます。非常に長い入力を扱うタスクなら、Scout が明確な選択肢です。

  • 1,000万トークンコンテキスト - 現在利用可能なオープンモデルで最長
  • Needle-in-a-haystack テストで800万トークンまで95%以上の検索精度
  • 16エキスパートで総パラメータ109B、トークンあたり17Bアクティブ
  • GitHub リポジトリ全体を処理して包括的なコードレビュー
  • 法的文書分析、研究の統合、監査ワークフローに最適
Llama 4 Scout - long context specialist

Maverick

Llama 4 Maverick:品質が最優先のとき

Maverick の128エキスパートアーキテクチャは、主要ベンチマークで GPT-4o を上回るフロンティアクラスの性能を実現します。このサイトのデフォルトモデルに選ばれているのには理由があります:複雑な推論、コーディング、マルチモーダルタスクを、最高のプロプライエタリモデルに期待される品質で処理します。

  • MMLU Pro 80.5%でフロンティアクラスの知識と推論
  • LiveCodeBench v5 で43.4%を記録し、コーディングベンチマークで GPT-4o を上回る
  • 128エキスパートで総パラメータ400B、深いドメイン専門性
  • MMMU 73.4%で画像やドキュメントの強力なマルチモーダル理解
  • 自律エージェントワークフロー構築のためのネイティブ関数呼び出し
Llama 4 Maverick - frontier quality

選択ガイド

Llama 4 Models から最適なモデルを選ぶ

Llama 4 Models の選択は、ワークフローで何が最も重要かによって決まります。どちらも同じ17Bアクティブパラメータのフットプリントとネイティブマルチモーダル対応を共有しているため、判断はコンテキスト長と出力品質のどちらを優先するかに帰着します。多くのチームがパイプラインの異なる部分で両方のバリアントを活用しています。

  • 100万トークン以上を一度に処理する必要があるタスクには Scout を選択
  • 出力品質と推論の深さが最も重要なタスクには Maverick を選択
  • どちらも17Bアクティブパラメータを共有し、トークンあたりの推論コストは同等
  • 取り込みと分析に Scout、統合と生成に Maverick を使用
  • どちらも同じオープンウェイトライセンスで、片方または両方を自由にデプロイ可能

ダウンロード

モデル重みを取得

いずれかの Llama 4 バリアントの公式重みをダウンロードできます。

FAQ

Llama 4 Models に関するよくある質問

Llama 4 Models の選択、実行、デプロイについて、プロジェクトでよく寄せられる質問への回答です。

現在利用可能な Llama 4 Models は何種類ですか?

現在、Scout と Maverick の2つの Llama 4 Models があります。それぞれにチャットやタスク完了に最適化された Instruction-tuned バージョンと、ファインチューニングや研究向けのベース事前学習バージョンの2つのバリアントがあります。すぐに使える会話モデルが必要か、カスタム学習の基盤が必要かに応じて、合計4つのチェックポイントから選択できます。

コーディングタスクに最適な Llama 4 モデルはどれですか?

コーディングタスクには Maverick がより強力な選択肢です。LiveCodeBench v5 で43.4%を記録し、Scout(32.8%)と GPT-4o(37.0%)の両方を上回っています。128エキスパートアーキテクチャがプログラミング言語やフレームワークにわたる深い専門性を提供します。ただし、大規模なコードベース全体を一度に分析する必要がある場合は、Scout の1,000万トークンコンテキストウィンドウにより、クロスファイル分析のためにすべてを1回の呼び出しに読み込めます。

コンシューマー GPU で Llama 4 モデルを実行できますか?

フルバージョンの実行にはマルチ GPU セットアップが必要です。Scout はフル精度で約220 GBの VRAM、Maverick は約800 GBが必要です。ただし、量子化版では要件が大幅に削減されます。Scout の INT4 量子化は約55 GBに収まり、ハイエンドコンシューマー GPU で実現可能です。Maverick の INT4 でも約200 GBが必要で、クラウドやエンタープライズハードウェアに適しています。

Llama 4 ファミリーにおける Scout と Maverick の違いは何ですか?

Scout は1,000万トークンウィンドウと16エキスパート(総パラメータ109B)でロングコンテキストタスクに最適化されています。Maverick は128エキスパートと総パラメータ400Bで出力品質を優先しますが、コンテキストウィンドウは100万トークンです。どちらもトークンあたり17Bパラメータをアクティブにします。Scout は広角レンズ、Maverick は高解像度レンズと考えてください。同じカメラシステムの中の異なるレンズです。

すべての Llama 4 Models は無料でオープンウェイトですか?

はい。すべての Llama 4 Models は Llama 3.1 互換ライセンスの下でリリースされており、商用利用、ファインチューニング、再配布が許可されています。自社インフラへのデプロイ、製品の構築、特定のニーズに合わせた重みの変更が可能です。数億人のユーザーにサービスを提供する非常に大規模なデプロイメントには使用量しきい値が含まれています。

ドキュメント分析にはどの Llama 4 モデルを選ぶべきですか?

ドキュメントの量と複雑さによります。大量のドキュメント、契約書、研究論文を1回のパスで分析する場合は、Scout の1,000万トークンコンテキストウィンドウが最適です。短いドキュメントで最高品質の抽出、要約、推論が必要な場合は、Maverick の128エキスパートアーキテクチャがより繊細で正確な結果を生み出します。どちらもチャート、表、図表を含むドキュメントのネイティブ画像理解に対応しています。

Llama 4 ファミリー

各モデルの詳細と競合モデルとの比較

各バリアントの詳細を掘り下げたり、Llama 4 Models が他のフロンティアオープンモデルとどう比較されるかを確認できます。

Llama 4 Scout

1,000万トークンコンテキストウィンドウのスペシャリスト

詳しく見る

Llama 4 Maverick

128エキスパートのフラッグシップモデル

詳しく見る

Llama 4 vs Kimi K2.6

Meta vs Moonshot の比較

比較する

Llama 4 vs Qwen 3.6

Meta vs Alibaba の比較

比較する

Llama 4 vs DeepSeek V4

MoE アーキテクチャ対決

比較する

Llama 4 vs MiniMax M2.7

スケール vs 効率性

比較する

始める

Llama 4 Models から最適なモデルを見つけましょう

いずれかのバリアントで無料チャットを始めるか、ローカルデプロイ用の重みをダウンロードできます。どちらもオープンウェイトですぐに使えます。