N-Day-Bench – LLMは実際のコードベースで本物の脆弱性を発見できるか?

https://ndaybench.winfunc.com

タイトル: N-Day-Bench – LLMは実際のコードベースで本物の脆弱性を見つけられるか?

記事

  • 実際のコードベースに存在するN-day脆弱性(公開済みの既知の脆弱性)を発見する能力でLLMをベンチマークするテスト
  • 3エージェント構成のハーネス:Curatorが答えのキーを作成し、Finderがコードを探索し、Judgeがブラインドでスコアリング
  • Finderはシンク(脆弱性の出力点)のヒントを起点に24ステップのシェル操作が与えられ、パッチは一切見ない

ディスカッション

  • ハーネスのバグの可能性が指摘される:あるケースでGPTが不自然なほど高スコアを記録
  • 批判者からはルーブリックが「ノリで作られている(vibe-coded)」と指摘——JudgeがWeightを変更できるため再現性が損なわれる
  • コミュニティからはOSSハーネスの公開と独立した検証の要望
  • オープンソースモデル(Gemma、Qwen)の追加や、False Positive(誤検知)のテストケース追加を求める声も

HNで議論する


原文(英語): N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?


Type Link
Added Apr 14, 2026