LLMの決定的出力を測る新ベンチマーク「SOB」

· ai coding · Source ↗

要約

  • SOBは21種のLLMを対象に、テキスト・画像・音声それぞれでフィールド値抽出の実精度を計測するベンチマーク。JSONがパースできるかどうかではなく、実際の値が正しいかを問う。

主なポイント

  • フロンティアモデルはいずれもJSONパース成功率97%以上をクリアするが、Value Accuracy(値の正確さ)は15〜30ポイント低い——この乖離が、これまでの構造化出力ベンチマークが開発者を誤誘導してきた核心だ。
  • Value AccuracyではQwen3.5-35BとGLM-4.7がGPT-5とClaude-Sonnet-4.6を上回る。モデルサイズは抽出精度の指標にならない。
  • 音声モダリティは群を抜いて難しい。テキストに換算してスコアリングしても、最高Value AccuracyはGemini-2.5-Flashの23.7%にとどまり、テキストのGLM-4.7(83.0%)と比較にならない。
  • 3モダリティすべてを制するモデルは存在しない。テキストはGLM-4.7、画像はGemma-4-31B、音声はGemini-2.5-Flashがそれぞれリード。
  • Perfect Response率はトップモデルでも約50%まで落ち込む。Path RecallやType Safetyが99%を示す一方で、リーフ値の20〜30%は依然として誤っている。

Hacker News コメント概要

  • 現時点で実質的な議論はまだない。

Original | Discuss on HN


英語版: Show HN: A new benchmark for testing LLMs for deterministic outputs · Original source