N-Day-Bench – LLMは実際のコードベースで本物の脆弱性を発見できるか?
https://ndaybench.winfunc.comタイトル: N-Day-Bench – LLMは実際のコードベースで本物の脆弱性を見つけられるか?
記事
- 実際のコードベースに存在するN-day脆弱性(公開済みの既知の脆弱性)を発見する能力でLLMをベンチマークするテスト
- 3エージェント構成のハーネス:Curatorが答えのキーを作成し、Finderがコードを探索し、Judgeがブラインドでスコアリング
- Finderはシンク(脆弱性の出力点)のヒントを起点に24ステップのシェル操作が与えられ、パッチは一切見ない
ディスカッション
- ハーネスのバグの可能性が指摘される:あるケースでGPTが不自然なほど高スコアを記録
- 批判者からはルーブリックが「ノリで作られている(vibe-coded)」と指摘——JudgeがWeightを変更できるため再現性が損なわれる
- コミュニティからはOSSハーネスの公開と独立した検証の要望
- オープンソースモデル(Gemma、Qwen)の追加や、False Positive(誤検知)のテストケース追加を求める声も
原文(英語): N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?
| Type | Link |
| Added | Apr 14, 2026 |