Llama 4 Scout
1,000万トークンのコンテキスト - オープンモデル史上最長のウィンドウ
Llama 4 Scout は、1回のモデル呼び出しでできることを根本から変えます。Meta の Mixture of Experts アーキテクチャをベースに、総パラメータ109B・トークンあたりわずか17Bアクティブで、オープンモデルとして最長の1,000万トークンコンテキストウィンドウを実現しました。数百ファイルにまたがるコードベース全体、数十本の論文を含む研究ライブラリ、数時間分の会議録をそのまま入力できます。他のモデルではチャンク分割や要約が必要な場面でも、Llama 4 Scout はすべてを一度に処理し、分割では失われるドキュメント間の関係や微妙なつながりを保持します。
モデルバリアント
Instruction-tuned モデルとベースモデル
チャットやロングコンテキストタスクに最適化された Instruction-tuned バリアントと、ファインチューニングやカスタムアプリケーション向けのベースモデルから選べます。
Instruction-tuned
Scout Instruct
会話型 AI とロングコンテキストタスクの完了に最適化
指示追従、マルチターン対話、非常に長い入力の処理向けにファインチューニング済み
事前学習済み
Scout Base
ファインチューニングや特化アプリケーション向けの基盤 MoE モデル
16エキスパートルーティングで多様なマルチモーダルデータを事前学習
機能
Llama 4 Scout がロングコンテキストの強者である理由
Llama 4 Scout は、前例のない1,000万トークンコンテキストウィンドウと MoE の効率性、ネイティブマルチモーダル対応、強力な推論能力を兼ね備えています。すべての機能が、大量の情報を1回のパスで処理するタスクに対応するよう設計されています。
1,000万トークンコンテキストウィンドウ
オープンモデルとして最長のコンテキストウィンドウです。数百ファイル・5万行以上のコードベース全体、マルチドキュメントの研究ライブラリ、数時間分の会話を1回の呼び出しで処理できます。Needle-in-a-haystack テストでは800万トークンまで95%の検索精度を確認しており、1,000万トークンの上限でも89%の精度を維持します。
MoE の効率性
16個のエキスパートからなる109Bのパラメータプールから、トークンあたりわずか17Bのみをアクティブにします。このスパースルーティング戦略により、同等の総パラメータ数を持つ密なモデルのごく一部の計算コストで高い性能を発揮します。結果として、このクラスのモデルとしては想定より少ない GPU で実用的にデプロイできます。
大規模コード分析
リポジトリ全体をコンテキストに読み込み、ファイル横断の分析、依存関係の追跡、大規模リファクタリングを実行できます。Llama 4 Scout はモジュール間の関数呼び出しをトレースし、未使用のインポートを特定し、コードベース全体を同時に把握しながらアーキテクチャの改善を提案します。
エージェントワークフロー
ネイティブの関数呼び出しとツール使用に対応しており、追加のファインチューニングなしで自律エージェントを構築できます。複数のツールを連鎖させ、データベースへのクエリ、API 呼び出し、結果の順次処理を行うワークフローを構築できます。拡張されたコンテキストウィンドウにより、エージェントは多くのインタラクションステップにわたってリッチな状態を維持できます。
多言語対応
複数言語にわたる高い性能と文化的コンテキストの理解により、グローバルなアプリケーションに対応します。英語、中国語、スペイン語、その他の対応言語でドキュメントを分析する場合でも、Llama 4 Scout は言語の壁を越えて一貫した品質と繊細な理解を維持します。
ネイティブマルチモーダル
Early Fusion アーキテクチャにより、テキストと画像を一緒に処理します。スクリーンショット、図表、チャート、ドキュメントをテキストと並行して分析でき、別途ビジョンパイプラインを用意する必要はありません。マルチモーダル機能はモデルの基盤から組み込まれており、視覚情報とテキスト情報をシームレスに横断して推論できます。
主なハイライト
Llama 4 Scout のコンテキストウィンドウが重要な理由
1,000万トークンのコンテキストウィンドウは、1回のモデル呼び出しで可能なことを根本から変えます。
1,000万トークンに収まるもの
- 中規模コードベース全体(数百ファイル・5万行以上)
- 複数の研究論文や書籍1冊分
- 数時間分の会議録や会話履歴
- 複雑なシステムの完全なドキュメントセット
- Needle-in-a-haystack テストで800万トークンまで95%以上の検索精度
技術仕様
- 総パラメータ109B、トークンあたり17Bアクティブ
- MoE アーキテクチャで16個のエキスパート
- 1,000万トークンコンテキストウィンドウ
- ネイティブマルチモーダル(テキスト+画像)
- Llama 3.1 互換ライセンス
性能
競争力のある推論を備えたロングコンテキストのスペシャリスト
Llama 4 Scout は標準ベンチマークで高い性能を発揮しつつ、ロングドキュメントタスク向けに他に類を見ない1,000万トークンコンテキストウィンドウを提供します。
実際の使用では、大量の情報処理が求められるタスクで Llama 4 Scout が真価を発揮します。開発者は GitHub リポジトリ全体を読み込んで包括的なコードレビューに成功し、研究者は論文コレクション全体を投入して文献の統合に活用し、法務チームは契約書ライブラリ全体を処理して条項の比較を行っています。ベンチマークスコアでは Maverick がリードしますが、Scout の1,000万トークンコンテキストウィンドウは、短いプロンプトでのわずかな品質差よりも全体を一度に見ることが重要なワークフローにおいて、明確な選択肢となります。
1,000万トークンコンテキストウィンドウ - オープンモデル最長
800万トークンまで95%以上の検索精度
総パラメータ109Bから17Bアクティブ(16エキスパート)
アクティブパラメータ数の2〜3倍のモデルと競合する性能
テキストと画像入力のネイティブマルチモーダル対応
ベンチマーク比較
Scout vs Maverick と Llama 4 ファミリー
Scout は巨大なコンテキストウィンドウの優位性と引き換えに、一部のベンチマークスコアを譲っています。
| Benchmark | Llama 4 Scout 16エキスパート 注目 | Llama 4 Maverick 128エキスパート | Llama 3.1 70B Dense |
|---|---|---|---|
MMLU Pro 知識と推論 | 74.3% | 80.5% | 66.4% |
GPQA Diamond 科学的知識 | 57.2% | 69.8% | 46.7% |
LiveCodeBench v5 コーディング | 32.8% | 43.4% | 28.5% |
MMMU マルチモーダル | 69.4% | 73.4% | - |
Context Window 最大トークン数 | 10M | 1M | 128K |
Total Parameters モデルサイズ | 109B | 400B | 70B |
Active Parameters トークンあたり | 17B | 17B | 70B |
データは Meta の公式モデルカードおよび独立した評価に基づきます。
ロングコンテキスト
1,000万トークン:Llama 4 Scout でコードベース全体を処理
Llama 4 Scout の1,000万トークンコンテキストウィンドウは、オープンモデルとして最長です。リポジトリ全体、マルチドキュメントの研究セット、数時間分のトランスクリプトを1つのコンテキストに読み込み、チャンク分割や要約で情報を失うことなく包括的な分析が可能です。
- Needle-in-a-haystack テストで800万トークンまで95%以上の検索精度
- 1,000万トークンの上限でも89%の精度で信頼性の高いロングレンジ検索
- 数百ファイル・5万行以上のコードを同時に処理
- ドキュメントを分割せずに研究論文コレクション全体を分析
- 長時間のマルチターンセッションで完全な会話履歴を維持
MoE アーキテクチャ
Llama 4 Scout が109Bの容量を17Bのコストで実現する仕組み
Llama 4 Scout の16エキスパート MoE アーキテクチャは、トークンあたりわずか17Bパラメータのみをアクティブにしながら、はるかに大きなモデルの表現力を維持します。これにより、推論・コーディング・分析タスクで高い性能を発揮しつつ、シングルノードでの実用的なデプロイが可能です。
- 16エキスパート、フォワードパスあたり17Bアクティブパラメータで効率的な推論
- Maverick と同じアクティブパラメータ数で、総メモリは大幅に少ない
- GPU 要件が少なく、シングルノードデプロイシナリオに実用的
- スパースルーティングにより各トークンが専門エキスパートの注意を受ける
- 同等の総パラメータを持つ密なモデルと比べて運用コストが低い
マルチモーダル
Llama 4 Scout のマルチモーダル機能
Llama 4 Scout は Early Fusion アーキテクチャを使用し、テキストと画像をネイティブに一緒に処理します。視覚的な理解は別モジュールとして追加されたものではなく、モデルの基盤から組み込まれており、同じ巨大なコンテキストウィンドウ内で両方のモダリティをシームレスに横断して推論できます。
- MMMU マルチモーダルベンチマークで69.4%の強力な視覚推論
- Early Fusion アーキテクチャが画像とテキストを統合ストリームで処理
- スクリーンショット、図表、フローチャート、技術図面をコードと並行して分析
- 視覚的なドキュメント分析と1,000万トークンコンテキストウィンドウを組み合わせ
- 別途ビジョンパイプラインが不要で、デプロイの複雑さを軽減
始める
Llama 4 Scout を今すぐ試す
すぐにチャットを開始するか、セルフホスト用の重みをダウンロードできます。
ダウンロードとデプロイ
セルフホストデプロイ
お使いのインフラにデプロイするための公式モデル重みをダウンロードできます。
FAQ
Llama 4 Scout に関するよくある質問
Llama 4 Scout の実行、デプロイ、活用方法について、開発者や研究者からよく寄せられる質問への回答です。
Llama 4 Scout のフル精度版を実行するには約220 GBの VRAM が必要で、通常は A100 80 GB カード2枚以上のマルチ GPU セットアップが必要です。量子化版では大幅に削減できます。INT8 量子化で約110 GB、INT4 量子化で約55 GBとなり、複数 GPU を搭載したハイエンドコンシューマー環境でもアクセス可能です。
はい。Llama 4 Scout の1,000万トークンコンテキストウィンドウは、数百ファイル・約5万行のコードを同時に保持できます。つまり、ほとんどの中規模リポジトリは1回のコンテキスト呼び出しに完全に収まり、ファイル間のチャンク分割やコンテキスト喪失なしに、クロスファイル分析、依存関係の追跡、アーキテクチャレビューが可能です。
Llama 4 Scout は1,000万トークンウィンドウと16エキスパート(総パラメータ109B)でロングコンテキストタスクに最適化されています。Maverick は128エキスパートと総パラメータ400Bで生の品質を優先しますが、コンテキストウィンドウは100万トークンです。どちらもトークンあたり17Bパラメータをアクティブにします。大量のコンテキストが必要なら Scout、最高のベンチマーク性能が必要なら Maverick を選んでください。
はい。Llama 4 Scout は Llama 3.1 互換ライセンスの下でリリースされており、商用利用が許可されています。本番アプリケーションへのデプロイ、製品の構築、特定のニーズに合わせたファインチューニングが可能です。非常に大規模なデプロイメントには一定の使用量しきい値が含まれているため、数億人のユーザーにサービスを提供するアプリケーションの場合はライセンス全文をご確認ください。
1,000万トークンコンテキストウィンドウにより、Llama 4 Scout は1回の推論呼び出しで最大1,000万トークンを受け入れて処理できます。これは、位置エンコーディングとアテンションメカニズムのアーキテクチャ革新により、非常に長いシーケンスにわたって一貫性を維持することで実現されています。Needle-in-a-haystack テストでは800万トークンまで95%、1,000万トークンの上限で89%の検索精度を示しています。
Llama 4 Scout は Python、JavaScript、TypeScript、Java、C++、Go、Rust など、すべての主要プログラミング言語に対応しています。学習データは幅広いオープンソースリポジトリをカバーしています。真の強みはコンテキストウィンドウにあります。複数言語のプロジェクト全体を読み込み、言語間のインタラクション、API 境界、フルスタックアーキテクチャを1回の呼び出しで分析できます。
Llama 4 ファミリー
Llama 4 の全ラインナップを探索
Scout は Meta の Llama 4 ファミリーの一員です。Maverick と比較したり、他のオープンモデルとの違いを確認できます。
始める
Llama 4 Scout を試してみませんか?
今すぐ無料でチャットを開始するか、セルフホスト用のモデルをダウンロードできます。1,000万トークンのコンテキストウィンドウがお待ちしています。