N-Day-Bench – LLMは実際のコードベースで本物の脆弱性を発見できるか？

https://ndaybench.winfunc.com

タイトル: N-Day-Bench – LLMは実際のコードベースで本物の脆弱性を見つけられるか？

記事

実際のコードベースに存在するN-day脆弱性（公開済みの既知の脆弱性）を発見する能力でLLMをベンチマークするテスト
3エージェント構成のハーネス：Curatorが答えのキーを作成し、Finderがコードを探索し、Judgeがブラインドでスコアリング
Finderはシンク（脆弱性の出力点）のヒントを起点に24ステップのシェル操作が与えられ、パッチは一切見ない

ディスカッション

ハーネスのバグの可能性が指摘される：あるケースでGPTが不自然なほど高スコアを記録
批判者からはルーブリックが「ノリで作られている（vibe-coded）」と指摘——JudgeがWeightを変更できるため再現性が損なわれる
コミュニティからはOSSハーネスの公開と独立した検証の要望
オープンソースモデル（Gemma、Qwen）の追加や、False Positive（誤検知）のテストケース追加を求める声も

HNで議論する

原文（英語）: N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?

Type	Link
Added	Apr 14, 2026

📰 トップストーリー 89 items