Llama 4 Scout

1,000万トークンのコンテキスト - オープンモデル史上最長のウィンドウ

Llama 4 Scout は、1回のモデル呼び出しでできることを根本から変えます。Meta の Mixture of Experts アーキテクチャをベースに、総パラメータ109B・トークンあたりわずか17Bアクティブで、オープンモデルとして最長の1,000万トークンコンテキストウィンドウを実現しました。数百ファイルにまたがるコードベース全体、数十本の論文を含む研究ライブラリ、数時間分の会議録をそのまま入力できます。他のモデルではチャンク分割や要約が必要な場面でも、Llama 4 Scout はすべてを一度に処理し、分割では失われるドキュメント間の関係や微妙なつながりを保持します。

チャットを始めるベンチマークを見る

モデルバリアント

Instruction-tuned モデルとベースモデル

チャットやロングコンテキストタスクに最適化された Instruction-tuned バリアントと、ファインチューニングやカスタムアプリケーション向けのベースモデルから選べます。

Mixture-of-Experts アーキテクチャ

総パラメータ109B、トークンあたり17Bアクティブ

Llama 4 Scout は16個のエキスパートを持つスパース MoE 設計を採用し、フォワードパスごとに17Bパラメータをアクティブにします。最大の特長は、オープンモデルとして最長の1,000万トークンコンテキストウィンドウです。

大量のテキスト処理が必要なタスクに最適です。コードベース全体、マルチドキュメント分析、長い研究論文、長時間の会話履歴などに対応します。

チャットを始める機能を見る

Instruction-tuned

Scout Instruct

会話型 AI とロングコンテキストタスクの完了に最適化

指示追従、マルチターン対話、非常に長い入力の処理向けにファインチューニング済み

利用可能

チャットを始める重みをダウンロード

事前学習済み

Scout Base

ファインチューニングや特化アプリケーション向けの基盤 MoE モデル

16エキスパートルーティングで多様なマルチモーダルデータを事前学習

利用可能

HuggingFace で見るドキュメント

機能

Llama 4 Scout がロングコンテキストの強者である理由

Llama 4 Scout は、前例のない1,000万トークンコンテキストウィンドウと MoE の効率性、ネイティブマルチモーダル対応、強力な推論能力を兼ね備えています。すべての機能が、大量の情報を1回のパスで処理するタスクに対応するよう設計されています。

1,000万トークンコンテキストウィンドウ

オープンモデルとして最長のコンテキストウィンドウです。数百ファイル・5万行以上のコードベース全体、マルチドキュメントの研究ライブラリ、数時間分の会話を1回の呼び出しで処理できます。Needle-in-a-haystack テストでは800万トークンまで95%の検索精度を確認しており、1,000万トークンの上限でも89%の精度を維持します。

MoE の効率性

16個のエキスパートからなる109Bのパラメータプールから、トークンあたりわずか17Bのみをアクティブにします。このスパースルーティング戦略により、同等の総パラメータ数を持つ密なモデルのごく一部の計算コストで高い性能を発揮します。結果として、このクラスのモデルとしては想定より少ない GPU で実用的にデプロイできます。

大規模コード分析

リポジトリ全体をコンテキストに読み込み、ファイル横断の分析、依存関係の追跡、大規模リファクタリングを実行できます。Llama 4 Scout はモジュール間の関数呼び出しをトレースし、未使用のインポートを特定し、コードベース全体を同時に把握しながらアーキテクチャの改善を提案します。

エージェントワークフロー

ネイティブの関数呼び出しとツール使用に対応しており、追加のファインチューニングなしで自律エージェントを構築できます。複数のツールを連鎖させ、データベースへのクエリ、API 呼び出し、結果の順次処理を行うワークフローを構築できます。拡張されたコンテキストウィンドウにより、エージェントは多くのインタラクションステップにわたってリッチな状態を維持できます。

多言語対応

複数言語にわたる高い性能と文化的コンテキストの理解により、グローバルなアプリケーションに対応します。英語、中国語、スペイン語、その他の対応言語でドキュメントを分析する場合でも、Llama 4 Scout は言語の壁を越えて一貫した品質と繊細な理解を維持します。

ネイティブマルチモーダル

Early Fusion アーキテクチャにより、テキストと画像を一緒に処理します。スクリーンショット、図表、チャート、ドキュメントをテキストと並行して分析でき、別途ビジョンパイプラインを用意する必要はありません。マルチモーダル機能はモデルの基盤から組み込まれており、視覚情報とテキスト情報をシームレスに横断して推論できます。

主なハイライト

Llama 4 Scout のコンテキストウィンドウが重要な理由

1,000万トークンのコンテキストウィンドウは、1回のモデル呼び出しで可能なことを根本から変えます。

1,000万トークンに収まるもの

中規模コードベース全体（数百ファイル・5万行以上）
複数の研究論文や書籍1冊分
数時間分の会議録や会話履歴
複雑なシステムの完全なドキュメントセット
Needle-in-a-haystack テストで800万トークンまで95%以上の検索精度

技術仕様

総パラメータ109B、トークンあたり17Bアクティブ
MoE アーキテクチャで16個のエキスパート
1,000万トークンコンテキストウィンドウ
ネイティブマルチモーダル（テキスト＋画像）
Llama 3.1 互換ライセンス

無料チャットを始める重みをダウンロード

性能

競争力のある推論を備えたロングコンテキストのスペシャリスト

Llama 4 Scout は標準ベンチマークで高い性能を発揮しつつ、ロングドキュメントタスク向けに他に類を見ない1,000万トークンコンテキストウィンドウを提供します。

実際の使用では、大量の情報処理が求められるタスクで Llama 4 Scout が真価を発揮します。開発者は GitHub リポジトリ全体を読み込んで包括的なコードレビューに成功し、研究者は論文コレクション全体を投入して文献の統合に活用し、法務チームは契約書ライブラリ全体を処理して条項の比較を行っています。ベンチマークスコアでは Maverick がリードしますが、Scout の1,000万トークンコンテキストウィンドウは、短いプロンプトでのわずかな品質差よりも全体を一度に見ることが重要なワークフローにおいて、明確な選択肢となります。

チャットを始めるモデルカードを見る

1,000万トークンコンテキストウィンドウ - オープンモデル最長

800万トークンまで95%以上の検索精度

総パラメータ109Bから17Bアクティブ（16エキスパート）

アクティブパラメータ数の2〜3倍のモデルと競合する性能

テキストと画像入力のネイティブマルチモーダル対応

ベンチマーク比較

Scout vs Maverick と Llama 4 ファミリー

Scout は巨大なコンテキストウィンドウの優位性と引き換えに、一部のベンチマークスコアを譲っています。

Benchmark	Llama 4 Scout 16エキスパート注目	Llama 4 Maverick 128エキスパート	Llama 3.1 70B Dense
MMLU Pro 知識と推論	74.3%	80.5%	66.4%
GPQA Diamond 科学的知識	57.2%	69.8%	46.7%
LiveCodeBench v5 コーディング	32.8%	43.4%	28.5%
MMMU マルチモーダル	69.4%	73.4%	-
Context Window 最大トークン数	10M	1M	128K
Total Parameters モデルサイズ	109B	400B	70B
Active Parameters トークンあたり	17B	17B	70B

データは Meta の公式モデルカードおよび独立した評価に基づきます。

ロングコンテキスト

1,000万トークン：Llama 4 Scout でコードベース全体を処理

Llama 4 Scout の1,000万トークンコンテキストウィンドウは、オープンモデルとして最長です。リポジトリ全体、マルチドキュメントの研究セット、数時間分のトランスクリプトを1つのコンテキストに読み込み、チャンク分割や要約で情報を失うことなく包括的な分析が可能です。

Needle-in-a-haystack テストで800万トークンまで95%以上の検索精度
1,000万トークンの上限でも89%の精度で信頼性の高いロングレンジ検索
数百ファイル・5万行以上のコードを同時に処理
ドキュメントを分割せずに研究論文コレクション全体を分析
長時間のマルチターンセッションで完全な会話履歴を維持

ロングコンテキストタスクを試すベンチマークを見る

MoE アーキテクチャ

Llama 4 Scout が109Bの容量を17Bのコストで実現する仕組み

Llama 4 Scout の16エキスパート MoE アーキテクチャは、トークンあたりわずか17Bパラメータのみをアクティブにしながら、はるかに大きなモデルの表現力を維持します。これにより、推論・コーディング・分析タスクで高い性能を発揮しつつ、シングルノードでの実用的なデプロイが可能です。

16エキスパート、フォワードパスあたり17Bアクティブパラメータで効率的な推論
Maverick と同じアクティブパラメータ数で、総メモリは大幅に少ない
GPU 要件が少なく、シングルノードデプロイシナリオに実用的
スパースルーティングにより各トークンが専門エキスパートの注意を受ける
同等の総パラメータを持つ密なモデルと比べて運用コストが低い

チャットを始める Maverick と比較

マルチモーダル

Llama 4 Scout のマルチモーダル機能

Llama 4 Scout は Early Fusion アーキテクチャを使用し、テキストと画像をネイティブに一緒に処理します。視覚的な理解は別モジュールとして追加されたものではなく、モデルの基盤から組み込まれており、同じ巨大なコンテキストウィンドウ内で両方のモダリティをシームレスに横断して推論できます。

MMMU マルチモーダルベンチマークで69.4%の強力な視覚推論
Early Fusion アーキテクチャが画像とテキストを統合ストリームで処理
スクリーンショット、図表、フローチャート、技術図面をコードと並行して分析
視覚的なドキュメント分析と1,000万トークンコンテキストウィンドウを組み合わせ
別途ビジョンパイプラインが不要で、デプロイの複雑さを軽減

始める

Llama 4 Scout を今すぐ試す

すぐにチャットを開始するか、セルフホスト用の重みをダウンロードできます。

Scout とチャット

Llama 4 Scout をすぐに試せます - セットアップ不要

モデルカード

完全な技術仕様とベンチマーク

ドキュメント

統合ガイドとベストプラクティス

ダウンロードとデプロイ

セルフホストデプロイ

お使いのインフラにデプロイするための公式モデル重みをダウンロードできます。

Hugging Face

Llama 4 Scout 公式モデルリポジトリ

Ollama

Ollama でローカル実行

GitHub

ソースコードとサンプル

FAQ

Llama 4 Scout に関するよくある質問

Llama 4 Scout の実行、デプロイ、活用方法について、開発者や研究者からよく寄せられる質問への回答です。

Llama 4 Scout をローカルで実行するにはどのくらいの VRAM が必要ですか？

Llama 4 Scout のフル精度版を実行するには約220 GBの VRAM が必要で、通常は A100 80 GB カード2枚以上のマルチ GPU セットアップが必要です。量子化版では大幅に削減できます。INT8 量子化で約110 GB、INT4 量子化で約55 GBとなり、複数 GPU を搭載したハイエンドコンシューマー環境でもアクセス可能です。

Llama 4 Scout で GitHub リポジトリ全体を処理できますか？

はい。Llama 4 Scout の1,000万トークンコンテキストウィンドウは、数百ファイル・約5万行のコードを同時に保持できます。つまり、ほとんどの中規模リポジトリは1回のコンテキスト呼び出しに完全に収まり、ファイル間のチャンク分割やコンテキスト喪失なしに、クロスファイル分析、依存関係の追跡、アーキテクチャレビューが可能です。

Llama 4 Scout と Maverick の違いは何ですか？

Llama 4 Scout は1,000万トークンウィンドウと16エキスパート（総パラメータ109B）でロングコンテキストタスクに最適化されています。Maverick は128エキスパートと総パラメータ400Bで生の品質を優先しますが、コンテキストウィンドウは100万トークンです。どちらもトークンあたり17Bパラメータをアクティブにします。大量のコンテキストが必要なら Scout、最高のベンチマーク性能が必要なら Maverick を選んでください。

Llama 4 Scout は商用利用できますか？

はい。Llama 4 Scout は Llama 3.1 互換ライセンスの下でリリースされており、商用利用が許可されています。本番アプリケーションへのデプロイ、製品の構築、特定のニーズに合わせたファインチューニングが可能です。非常に大規模なデプロイメントには一定の使用量しきい値が含まれているため、数億人のユーザーにサービスを提供するアプリケーションの場合はライセンス全文をご確認ください。

Llama 4 Scout の1,000万トークンコンテキストウィンドウはどのように機能しますか？

1,000万トークンコンテキストウィンドウにより、Llama 4 Scout は1回の推論呼び出しで最大1,000万トークンを受け入れて処理できます。これは、位置エンコーディングとアテンションメカニズムのアーキテクチャ革新により、非常に長いシーケンスにわたって一貫性を維持することで実現されています。Needle-in-a-haystack テストでは800万トークンまで95%、1,000万トークンの上限で89%の検索精度を示しています。

Llama 4 Scout はコード分析でどのプログラミング言語に対応していますか？

Llama 4 Scout は Python、JavaScript、TypeScript、Java、C++、Go、Rust など、すべての主要プログラミング言語に対応しています。学習データは幅広いオープンソースリポジトリをカバーしています。真の強みはコンテキストウィンドウにあります。複数言語のプロジェクト全体を読み込み、言語間のインタラクション、API 境界、フルスタックアーキテクチャを1回の呼び出しで分析できます。

Llama 4 ファミリー