GoogleのGemini 3.5 Flashが速度と価格に重点を置いてリーク

2026年5月19日(火)、テクノロジーの巨人Googleは、年次イベントGoogle I/O 2026の開幕数時間前に、新しいAIモデルに関する機密情報がリークされました。独立開発者のpankajkumar_devによると、同社はGemini 3.5 Flash(社内識別コードgemini-3.5-flash)を発表します。このモデルは、実行速度を優先し、コスト削減よりもリアルタイム生産に最適化されています。
価格と超高速性能のトレードオフ
最近の業界トレンドとは異なり、Googleの新しい選択は、計算コストを引き上げて、記録的な実行時間での応答を提供します。開発者ayushrajgorarによって公開された価格表によれば、入力(input)のコストは100万トークンあたり$1.50に上昇し、以前のGemini 3 Flashの$0.50から3倍となっています。出力(output)の料金は100万トークンあたり$9.00に設定され、前世代モデルの$3.00と比べられます。
実際には、市場は異なるビジネスニーズに応じた選択肢を得ています。バックグラウンドで動作し、遅延を許容するシステムには、Flexティアが入力コストを$0.75に削減します。一方、即時応答が必要な産業用途には、Priorityティアが入力100万トークンあたり$2.70を請求し、可能な限り短い処理待ち時間を保証します。
最適化されたインフラと200ms未満の遅延
内部コンソールテストでは、新モデルが標準的な生産クエリで200ミリ秒未満の応答遅延を達成することが示されています。この技術的進歩は、より大きなモデルの強力な蒸留とハードウェアのスパース性(sparsity)アーキテクチャを組み合わせることで実現されました。モデルは、Gemini 3.1 Proに近い論理推論能力を示し、不正確な応答や幻覚を大幅に減少させるための強化されたグラウンドチェックと検索システムを備えています。
多くのプログラマーが、ソーシャルネットワークX上で、高いコストが運用の安定性によって補われるかどうかを議論しています。公式発表とAPIの公開鍵の開示は、今日17時(UTC)に公式サイトio.googleで予定されているGoogle I/Oのメインプレゼンテーションで行われると期待されています。
このコンテンツは私たちのチーム(iatoskill.com)によって作成およびレビューされました。問題がある場合は、こちらからお問い合わせください


