Prompt API:ブラウザ内蔵LLM推論の現状と限界
TL;DR
- ChromeのPrompt APIはGemini Nanoをブラウザ内でローカル実行し、サーバー不要でExtensionやWebアプリからオンデバイスLLM推論が可能になる。
要点
-
LanguageModel.create()でセッションを開始。initialPrompts、append()、ストリーミング、キャンセル用のAbortSignalをサポート。 -
responseConstraintによる構造化出力はJSON SchemaまたはRegexを受け付け、プロンプトエンジニアリングの小細工なしに型付きレスポンスが得られる。 -
マルチモーダル入力に対応:テキスト、画像(
HTMLCanvasElement、Blob、ImageBitmap)、音声(AudioBuffer)。出力はテキストのみ。 - ハードウェア要件は厳しめ:空きストレージ22 GB、VRAM 4 GB以上またはRAM 16 GB、デスクトップ限定(Windows 10+、macOS 13+、Linux、ChromeOS Chromebook Plus)。
-
モデルは初回利用時に別途ダウンロード。
LanguageModel.availability()とdownloadprogressイベントでUXの表示タイミングを制御できる。
Hacker Newsコメント概観
- セットアップ不要のUXが最大の価値という点で意見が一致。ネイティブアプリのインストールなしでローカル推論を使えるのは、特に技術に詳しくないユーザー層に効果的。
- モデル品質への懐疑も根強い:Gemini Nano-1/2はMMLUスコア46〜56%で、Gemma4 E2B/E4B(60〜69%)に劣る。品質が重要なタスクでは、量子化モデルを自前でバンドルする選択肢を検討するExtension開発者も多い。
- ハードウェア要件の高さとモデルのダウンロードサイズが「サイレントな排除」につながるとの指摘あり。コア機能ではなく、あくまでオプショナルな拡張用途に向いている。
注目コメント
- @domenicd:元APIデザインリード。APIの設計トレードオフについて自身の考察記事へのリンクを投稿。
- @avaer:本番環境で「貧乏人のollama」として利用中。アプリ本体より桁違いに大きいモデルダウンロードがUXを損なうと指摘。
- @benjaminbenben:RSSフィードを通じた静的サイトコンテンツの要約に本番利用。低リスク・非同期の要約タスクには適していると評価。
英語版: The Prompt API · Original source