性能
直接対決ベンチマーク比較
Llama 4 はコンテキスト長とマルチモーダル理解でリードし、Qwen 3.6 はエージェントコーディングベンチマークを支配し、Dense および小型 MoE バリアントで卓越した効率性を提供します。
Llama 4 と Qwen 3.6 は異なる最適化目標を持っています。Llama 4 Scout の10Mコンテキストウィンドウは他に類を見ず、Maverick は強力なオールラウンド品質を提供します。Qwen 3.6 の Dense 27B モデルは SWE-Bench Verified で77.2%を達成 - そのサイズとしては驚異的 - Plus バリアントは78.8%に到達します。35B A3B MoE モデルはエッジデプロイ向けにトークンあたり3Bパラメータのみアクティブにします。
Qwen 3.6 27B:SWE-Bench Verified 77.2%、Terminal-Bench 59.3%、MMLU Pro 86.2%
Qwen 3.6 Plus:SWE-Bench Verified 78.8%、1Mコンテキストウィンドウ
Maverick:MMLU Pro 80.5%、MMMU 73.4%、GPQA Diamond 69.8%
Scout:10Mトークンのコンテキスト - Qwen 3.6 のデフォルト128Kの78倍
Qwen 3.6 35B A3B:エッジ・モバイルデプロイ向けにアクティブパラメータわずか3B
完全比較
Llama 4 ファミリー vs Qwen 3.6 ファミリー
推論、コーディング、マルチモーダル、アーキテクチャ指標の完全なベンチマーク結果です。
| Benchmark | Llama 4 Maverick 400B / 17Bアクティブ オープンウェイト | Llama 4 Scout 109B / 17Bアクティブ 長文コンテキスト | Qwen 3.6 27B 27B Dense コーディング | Qwen 3.6 Plus API モデル フラッグシップ | Qwen 3.6 35B A3B 35B / 3Bアクティブ 高効率 |
|---|---|---|---|---|---|
MMLU Pro 知識と推論 | 80.5% | 74.3% | 86.2% | - | - |
GPQA Diamond 科学知識 | 69.8% | 57.2% | - | - | - |
MMMU マルチモーダル理解 | 73.4% | 69.4% | - | - | - |
SWE-Bench Verified エージェントコーディング | - | - | 77.2% | 78.8% | 73.4% |
LiveCodeBench ライブコーディング評価 | 43.4% | 32.8% | - | - | ~75% |
Terminal-Bench ターミナルタスク | - | - | 59.3% | - | - |
Context Window 最大トークン数 | 1M | 10M | 128K | 1M | 128K |
Total Parameters モデルサイズ | 400B | 109B | 27B | - | 35B |
Active Parameters トークンあたり | 17B | 17B | 27B(Dense) | - | 3B |
Architecture モデルタイプ | MoE(128エキスパート) | MoE(16エキスパート) | Dense | API | MoE |
データは Meta 公式モデルカード、Alibaba の技術レポート、独立評価に基づきます。
Llama 4 を選ぶ
Qwen 3.6 より Llama 4 を選ぶべきとき
大規模コンテキストウィンドウ、ネイティブマルチモーダル理解、幅広いエコシステムサポートを備えた完全オープンウェイトモデルが必要な場合は Llama 4 が適しています。Scout の10Mコンテキストは Qwen 3.6 のデフォルト128Kの78倍です。
- 10Mトークンのコンテキスト(Scout)- コードベース全体を一度に処理
- 早期融合アーキテクチャによるネイティブマルチモーダル(テキスト+画像)
- Llama 3.1 互換ライセンスで完全オープンウェイト
- MMMU 73.4% - 強力なマルチモーダル理解
- 主要クラウドプロバイダー全体で幅広いエコシステムサポート
Qwen 3.6 を選ぶ
Qwen 3.6 が優位なとき
Qwen 3.6 はエージェントコーディングベンチマークを支配し、卓越した Dense モデル効率を提供します。27B Dense モデルは SWE-Bench Verified で77.2%を達成し、35B A3B MoE バリアントはアクティブパラメータわずか3B - エッジデプロイに最適です。
- SWE-Bench Verified 最大78.8%(Plus)- フロンティアのコーディング性能
- 27B Dense モデル:Maverick の数分の一のサイズで SWE-Bench 77.2%
- 35B A3B:モバイル・エッジデプロイ向けにアクティブパラメータわずか3B
- MMLU Pro 86.2%(27B)- Maverick の80.5%を上回る
- Terminal-Bench 59.3% - 実世界のターミナルタスクで高い性能
始める
Llama 4 モデルを無料で試す
Llama 4 Maverick または Scout ですぐにチャットを始められます。セットアップ不要 - 自分でモデルを比較して、ワークフローに合うものを見つけてください。