Google、新AIモデルGemini 3.1 Flash-Liteを発表:ベンチマークで圧倒、価格も大幅に低下

Google、新AIモデルを発表:速度とコストにフォーカス
Googleは2026年3月3日、Gemini 3シリーズの最速かつコスト効率の高いメンバーとして、Gemini 3.1 Flash-Liteを発表しました。このモデルは、Gemini APIとVertex AIを通じて開発者向けにプレビュー版が提供されます。公式ブログによれば、このモデルは大量処理と低レイテンシーに対応し、必要に応じて推論能力を調整できるように設計されています。
低価格と高性能
新モデルは、シリーズの主要モデルよりも大幅に低い価格で提供されます:
- 入力100万トークンあたり0.25米ドル
- 出力100万トークンあたり1.50米ドル
Googleが示したベンチマークによれば、3.1 Flash-Liteは、初回トークンまでの速度が従来モデルの2.5倍であり、出力速度も45%向上しているとされ、高度な応答性と集中的な作業負荷に対応しています。
ベンチマークと技術的な質
このモデルはパフォーマンス評価でも注目を集めました:
- Eloスコア:1432(Arena.ai)
- GPQAダイアモンドベンチマークで86.9%
- MMMU Proで76.8%
これらのデータから、効率に重きを置きつつも、Flash-Liteがより大規模なバージョンと同等の推論とマルチモーダル理解能力を持っていることが示されています。
以前のバリエーションとは異なり、「Thinking Levels」というシステムを導入し、開発者がモデルの推論レベルを動的に調整でき、軽量から複雑な処理までモデルを切り替えることなく対応可能です。
実用的な用途
Gemini 3.1 Flash-Liteは、以下のような大量処理と迅速な応答が求められるシナリオ向けに設計されています:
- 大規模翻訳
- 自動コンテンツモデレーション
- リアルタイムでのデータ抽出と分類
- インターフェースやダッシュボードの生成
- シミュレーションや自動化フローの作成
推論の柔軟性により、チームはタスクに応じてコストと処理の深さを調整し、応答性が重要なアプリケーションでレイテンシーを削減できます。
初期の反響と今後の展望
一部の企業はすでに新モデルを生産でテストしており、複雑な入力にも高レベルモデルに匹敵する精度で対応できると報告しています(Google公式ブログより)。
今後数ヶ月で、実際の使用事例での利用を拡大し、コミュニティがFlash-Liteのコストと速度のバランスをどのように活用するかを観察する予定です。
このコンテンツは私たちのチーム(iatoskill.com)によって作成およびレビューされました。問題がある場合は、こちらからお問い合わせください


