LLMの決定的出力を測る新ベンチマーク「SOB」

Apr 29, 2026 · ai coding · Source ↗

要約

SOBは21種のLLMを対象に、テキスト・画像・音声それぞれでフィールド値抽出の実精度を計測するベンチマーク。JSONがパースできるかどうかではなく、実際の値が正しいかを問う。

フロンティアモデルはいずれもJSONパース成功率97%以上をクリアするが、Value Accuracy（値の正確さ）は15〜30ポイント低い——この乖離が、これまでの構造化出力ベンチマークが開発者を誤誘導してきた核心だ。
Value AccuracyではQwen3.5-35BとGLM-4.7がGPT-5とClaude-Sonnet-4.6を上回る。モデルサイズは抽出精度の指標にならない。
音声モダリティは群を抜いて難しい。テキストに換算してスコアリングしても、最高Value AccuracyはGemini-2.5-Flashの23.7%にとどまり、テキストのGLM-4.7（83.0%）と比較にならない。
3モダリティすべてを制するモデルは存在しない。テキストはGLM-4.7、画像はGemma-4-31B、音声はGemini-2.5-Flashがそれぞれリード。
Perfect Response率はトップモデルでも約50%まで落ち込む。Path RecallやType Safetyが99%を示す一方で、リーフ値の20〜30%は依然として誤っている。