Prompt API：ブラウザ内蔵LLM推論の現状と限界

Apr 27, 2026 · devtools web hardware · Source ↗

TL;DR

ChromeのPrompt APIはGemini Nanoをブラウザ内でローカル実行し、サーバー不要でExtensionやWebアプリからオンデバイスLLM推論が可能になる。

LanguageModel.create() でセッションを開始。initialPrompts、append()、ストリーミング、キャンセル用の AbortSignal をサポート。
responseConstraint による構造化出力はJSON SchemaまたはRegexを受け付け、プロンプトエンジニアリングの小細工なしに型付きレスポンスが得られる。
マルチモーダル入力に対応：テキスト、画像（HTMLCanvasElement、Blob、ImageBitmap）、音声（AudioBuffer）。出力はテキストのみ。
ハードウェア要件は厳しめ：空きストレージ22 GB、VRAM 4 GB以上またはRAM 16 GB、デスクトップ限定（Windows 10+、macOS 13+、Linux、ChromeOS Chromebook Plus）。
モデルは初回利用時に別途ダウンロード。LanguageModel.availability() と downloadprogress イベントでUXの表示タイミングを制御できる。

セットアップ不要のUXが最大の価値という点で意見が一致。ネイティブアプリのインストールなしでローカル推論を使えるのは、特に技術に詳しくないユーザー層に効果的。
モデル品質への懐疑も根強い：Gemini Nano-1/2はMMLUスコア46〜56%で、Gemma4 E2B/E4B（60〜69%）に劣る。品質が重要なタスクでは、量子化モデルを自前でバンドルする選択肢を検討するExtension開発者も多い。
ハードウェア要件の高さとモデルのダウンロードサイズが「サイレントな排除」につながるとの指摘あり。コア機能ではなく、あくまでオプショナルな拡張用途に向いている。