LLMの決定的出力を測る新ベンチマーク「SOB」
要約
- SOBは21種のLLMを対象に、テキスト・画像・音声それぞれでフィールド値抽出の実精度を計測するベンチマーク。JSONがパースできるかどうかではなく、実際の値が正しいかを問う。
主なポイント
- フロンティアモデルはいずれもJSONパース成功率97%以上をクリアするが、Value Accuracy(値の正確さ)は15〜30ポイント低い——この乖離が、これまでの構造化出力ベンチマークが開発者を誤誘導してきた核心だ。
- Value AccuracyではQwen3.5-35BとGLM-4.7がGPT-5とClaude-Sonnet-4.6を上回る。モデルサイズは抽出精度の指標にならない。
- 音声モダリティは群を抜いて難しい。テキストに換算してスコアリングしても、最高Value AccuracyはGemini-2.5-Flashの23.7%にとどまり、テキストのGLM-4.7(83.0%)と比較にならない。
- 3モダリティすべてを制するモデルは存在しない。テキストはGLM-4.7、画像はGemma-4-31B、音声はGemini-2.5-Flashがそれぞれリード。
- Perfect Response率はトップモデルでも約50%まで落ち込む。Path RecallやType Safetyが99%を示す一方で、リーフ値の20〜30%は依然として誤っている。
Hacker News コメント概要
- 現時点で実質的な議論はまだない。
英語版: Show HN: A new benchmark for testing LLMs for deterministic outputs · Original source