Llama 4 Scout

1,000万トークンのコンテキスト - オープンモデル史上最長のウィンドウ

Llama 4 Scout は、1回のモデル呼び出しでできることを根本から変えます。Meta の Mixture of Experts アーキテクチャをベースに、総パラメータ109B・トークンあたりわずか17Bアクティブで、オープンモデルとして最長の1,000万トークンコンテキストウィンドウを実現しました。数百ファイルにまたがるコードベース全体、数十本の論文を含む研究ライブラリ、数時間分の会議録をそのまま入力できます。他のモデルではチャンク分割や要約が必要な場面でも、Llama 4 Scout はすべてを一度に処理し、分割では失われるドキュメント間の関係や微妙なつながりを保持します。

モデルバリアント

Instruction-tuned モデルとベースモデル

チャットやロングコンテキストタスクに最適化された Instruction-tuned バリアントと、ファインチューニングやカスタムアプリケーション向けのベースモデルから選べます。

Mixture-of-Experts アーキテクチャ

総パラメータ109B、トークンあたり17Bアクティブ

Llama 4 Scout は16個のエキスパートを持つスパース MoE 設計を採用し、フォワードパスごとに17Bパラメータをアクティブにします。最大の特長は、オープンモデルとして最長の1,000万トークンコンテキストウィンドウです。

大量のテキスト処理が必要なタスクに最適です。コードベース全体、マルチドキュメント分析、長い研究論文、長時間の会話履歴などに対応します。

Instruction-tuned

Scout Instruct

会話型 AI とロングコンテキストタスクの完了に最適化

指示追従、マルチターン対話、非常に長い入力の処理向けにファインチューニング済み

利用可能

事前学習済み

Scout Base

ファインチューニングや特化アプリケーション向けの基盤 MoE モデル

16エキスパートルーティングで多様なマルチモーダルデータを事前学習

利用可能

機能

Llama 4 Scout がロングコンテキストの強者である理由

Llama 4 Scout は、前例のない1,000万トークンコンテキストウィンドウと MoE の効率性、ネイティブマルチモーダル対応、強力な推論能力を兼ね備えています。すべての機能が、大量の情報を1回のパスで処理するタスクに対応するよう設計されています。

1,000万トークンコンテキストウィンドウ

オープンモデルとして最長のコンテキストウィンドウです。数百ファイル・5万行以上のコードベース全体、マルチドキュメントの研究ライブラリ、数時間分の会話を1回の呼び出しで処理できます。Needle-in-a-haystack テストでは800万トークンまで95%の検索精度を確認しており、1,000万トークンの上限でも89%の精度を維持します。

MoE の効率性

16個のエキスパートからなる109Bのパラメータプールから、トークンあたりわずか17Bのみをアクティブにします。このスパースルーティング戦略により、同等の総パラメータ数を持つ密なモデルのごく一部の計算コストで高い性能を発揮します。結果として、このクラスのモデルとしては想定より少ない GPU で実用的にデプロイできます。

大規模コード分析

リポジトリ全体をコンテキストに読み込み、ファイル横断の分析、依存関係の追跡、大規模リファクタリングを実行できます。Llama 4 Scout はモジュール間の関数呼び出しをトレースし、未使用のインポートを特定し、コードベース全体を同時に把握しながらアーキテクチャの改善を提案します。

エージェントワークフロー

ネイティブの関数呼び出しとツール使用に対応しており、追加のファインチューニングなしで自律エージェントを構築できます。複数のツールを連鎖させ、データベースへのクエリ、API 呼び出し、結果の順次処理を行うワークフローを構築できます。拡張されたコンテキストウィンドウにより、エージェントは多くのインタラクションステップにわたってリッチな状態を維持できます。

多言語対応

複数言語にわたる高い性能と文化的コンテキストの理解により、グローバルなアプリケーションに対応します。英語、中国語、スペイン語、その他の対応言語でドキュメントを分析する場合でも、Llama 4 Scout は言語の壁を越えて一貫した品質と繊細な理解を維持します。

ネイティブマルチモーダル

Early Fusion アーキテクチャにより、テキストと画像を一緒に処理します。スクリーンショット、図表、チャート、ドキュメントをテキストと並行して分析でき、別途ビジョンパイプラインを用意する必要はありません。マルチモーダル機能はモデルの基盤から組み込まれており、視覚情報とテキスト情報をシームレスに横断して推論できます。

主なハイライト

Llama 4 Scout のコンテキストウィンドウが重要な理由

1,000万トークンのコンテキストウィンドウは、1回のモデル呼び出しで可能なことを根本から変えます。

1,000万トークンに収まるもの

  • 中規模コードベース全体(数百ファイル・5万行以上)
  • 複数の研究論文や書籍1冊分
  • 数時間分の会議録や会話履歴
  • 複雑なシステムの完全なドキュメントセット
  • Needle-in-a-haystack テストで800万トークンまで95%以上の検索精度

技術仕様

  • 総パラメータ109B、トークンあたり17Bアクティブ
  • MoE アーキテクチャで16個のエキスパート
  • 1,000万トークンコンテキストウィンドウ
  • ネイティブマルチモーダル(テキスト+画像)
  • Llama 3.1 互換ライセンス

性能

競争力のある推論を備えたロングコンテキストのスペシャリスト

Llama 4 Scout は標準ベンチマークで高い性能を発揮しつつ、ロングドキュメントタスク向けに他に類を見ない1,000万トークンコンテキストウィンドウを提供します。

実際の使用では、大量の情報処理が求められるタスクで Llama 4 Scout が真価を発揮します。開発者は GitHub リポジトリ全体を読み込んで包括的なコードレビューに成功し、研究者は論文コレクション全体を投入して文献の統合に活用し、法務チームは契約書ライブラリ全体を処理して条項の比較を行っています。ベンチマークスコアでは Maverick がリードしますが、Scout の1,000万トークンコンテキストウィンドウは、短いプロンプトでのわずかな品質差よりも全体を一度に見ることが重要なワークフローにおいて、明確な選択肢となります。

Llama 4 Scout 性能比較チャート

1,000万トークンコンテキストウィンドウ - オープンモデル最長

800万トークンまで95%以上の検索精度

総パラメータ109Bから17Bアクティブ(16エキスパート)

アクティブパラメータ数の2〜3倍のモデルと競合する性能

テキストと画像入力のネイティブマルチモーダル対応

ベンチマーク比較

Scout vs Maverick と Llama 4 ファミリー

Scout は巨大なコンテキストウィンドウの優位性と引き換えに、一部のベンチマークスコアを譲っています。

Benchmark
Llama 4 Scout
16エキスパート
注目
Llama 4 Maverick
128エキスパート
Llama 3.1 70B
Dense
MMLU Pro
知識と推論
74.3%80.5%66.4%
GPQA Diamond
科学的知識
57.2%69.8%46.7%
LiveCodeBench v5
コーディング
32.8%43.4%28.5%
MMMU
マルチモーダル
69.4%73.4%-
Context Window
最大トークン数
10M1M128K
Total Parameters
モデルサイズ
109B400B70B
Active Parameters
トークンあたり
17B17B70B

データは Meta の公式モデルカードおよび独立した評価に基づきます。

ロングコンテキスト

1,000万トークン:Llama 4 Scout でコードベース全体を処理

Llama 4 Scout の1,000万トークンコンテキストウィンドウは、オープンモデルとして最長です。リポジトリ全体、マルチドキュメントの研究セット、数時間分のトランスクリプトを1つのコンテキストに読み込み、チャンク分割や要約で情報を失うことなく包括的な分析が可能です。

  • Needle-in-a-haystack テストで800万トークンまで95%以上の検索精度
  • 1,000万トークンの上限でも89%の精度で信頼性の高いロングレンジ検索
  • 数百ファイル・5万行以上のコードを同時に処理
  • ドキュメントを分割せずに研究論文コレクション全体を分析
  • 長時間のマルチターンセッションで完全な会話履歴を維持
Llama 4 Scout MoE architecture

MoE アーキテクチャ

Llama 4 Scout が109Bの容量を17Bのコストで実現する仕組み

Llama 4 Scout の16エキスパート MoE アーキテクチャは、トークンあたりわずか17Bパラメータのみをアクティブにしながら、はるかに大きなモデルの表現力を維持します。これにより、推論・コーディング・分析タスクで高い性能を発揮しつつ、シングルノードでの実用的なデプロイが可能です。

  • 16エキスパート、フォワードパスあたり17Bアクティブパラメータで効率的な推論
  • Maverick と同じアクティブパラメータ数で、総メモリは大幅に少ない
  • GPU 要件が少なく、シングルノードデプロイシナリオに実用的
  • スパースルーティングにより各トークンが専門エキスパートの注意を受ける
  • 同等の総パラメータを持つ密なモデルと比べて運用コストが低い
Llama 4 Scout 10M context window

マルチモーダル

Llama 4 Scout のマルチモーダル機能

Llama 4 Scout は Early Fusion アーキテクチャを使用し、テキストと画像をネイティブに一緒に処理します。視覚的な理解は別モジュールとして追加されたものではなく、モデルの基盤から組み込まれており、同じ巨大なコンテキストウィンドウ内で両方のモダリティをシームレスに横断して推論できます。

  • MMMU マルチモーダルベンチマークで69.4%の強力な視覚推論
  • Early Fusion アーキテクチャが画像とテキストを統合ストリームで処理
  • スクリーンショット、図表、フローチャート、技術図面をコードと並行して分析
  • 視覚的なドキュメント分析と1,000万トークンコンテキストウィンドウを組み合わせ
  • 別途ビジョンパイプラインが不要で、デプロイの複雑さを軽減

始める

Llama 4 Scout を今すぐ試す

すぐにチャットを開始するか、セルフホスト用の重みをダウンロードできます。

ダウンロードとデプロイ

セルフホストデプロイ

お使いのインフラにデプロイするための公式モデル重みをダウンロードできます。

FAQ

Llama 4 Scout に関するよくある質問

Llama 4 Scout の実行、デプロイ、活用方法について、開発者や研究者からよく寄せられる質問への回答です。

Llama 4 Scout をローカルで実行するにはどのくらいの VRAM が必要ですか?

Llama 4 Scout のフル精度版を実行するには約220 GBの VRAM が必要で、通常は A100 80 GB カード2枚以上のマルチ GPU セットアップが必要です。量子化版では大幅に削減できます。INT8 量子化で約110 GB、INT4 量子化で約55 GBとなり、複数 GPU を搭載したハイエンドコンシューマー環境でもアクセス可能です。

Llama 4 Scout で GitHub リポジトリ全体を処理できますか?

はい。Llama 4 Scout の1,000万トークンコンテキストウィンドウは、数百ファイル・約5万行のコードを同時に保持できます。つまり、ほとんどの中規模リポジトリは1回のコンテキスト呼び出しに完全に収まり、ファイル間のチャンク分割やコンテキスト喪失なしに、クロスファイル分析、依存関係の追跡、アーキテクチャレビューが可能です。

Llama 4 Scout と Maverick の違いは何ですか?

Llama 4 Scout は1,000万トークンウィンドウと16エキスパート(総パラメータ109B)でロングコンテキストタスクに最適化されています。Maverick は128エキスパートと総パラメータ400Bで生の品質を優先しますが、コンテキストウィンドウは100万トークンです。どちらもトークンあたり17Bパラメータをアクティブにします。大量のコンテキストが必要なら Scout、最高のベンチマーク性能が必要なら Maverick を選んでください。

Llama 4 Scout は商用利用できますか?

はい。Llama 4 Scout は Llama 3.1 互換ライセンスの下でリリースされており、商用利用が許可されています。本番アプリケーションへのデプロイ、製品の構築、特定のニーズに合わせたファインチューニングが可能です。非常に大規模なデプロイメントには一定の使用量しきい値が含まれているため、数億人のユーザーにサービスを提供するアプリケーションの場合はライセンス全文をご確認ください。

Llama 4 Scout の1,000万トークンコンテキストウィンドウはどのように機能しますか?

1,000万トークンコンテキストウィンドウにより、Llama 4 Scout は1回の推論呼び出しで最大1,000万トークンを受け入れて処理できます。これは、位置エンコーディングとアテンションメカニズムのアーキテクチャ革新により、非常に長いシーケンスにわたって一貫性を維持することで実現されています。Needle-in-a-haystack テストでは800万トークンまで95%、1,000万トークンの上限で89%の検索精度を示しています。

Llama 4 Scout はコード分析でどのプログラミング言語に対応していますか?

Llama 4 Scout は Python、JavaScript、TypeScript、Java、C++、Go、Rust など、すべての主要プログラミング言語に対応しています。学習データは幅広いオープンソースリポジトリをカバーしています。真の強みはコンテキストウィンドウにあります。複数言語のプロジェクト全体を読み込み、言語間のインタラクション、API 境界、フルスタックアーキテクチャを1回の呼び出しで分析できます。

Llama 4 ファミリー

Llama 4 の全ラインナップを探索

Scout は Meta の Llama 4 ファミリーの一員です。Maverick と比較したり、他のオープンモデルとの違いを確認できます。

Llama 4 Maverick

128エキスパートの400B MoE フラッグシップ

比較する

All Llama 4 Models

ファミリー全体の概要

すべて見る

Llama 4 vs Kimi K2.6

Scout/Maverick vs Moonshot の1Tモデル

比較する

Llama 4 vs Qwen 3.6

Meta vs Alibaba の最新モデル

比較する

Llama 4 vs DeepSeek V4

MoE アーキテクチャ対決

比較する

Llama 4 vs MiniMax M2.7

コンテキスト vs コスト効率

比較する

始める

Llama 4 Scout を試してみませんか?

今すぐ無料でチャットを開始するか、セルフホスト用のモデルをダウンロードできます。1,000万トークンのコンテキストウィンドウがお待ちしています。