Claude Codeのcavemanプラグインと「be brief.」の2語を比較ベンチマーク

Apr 30, 2026 · ai · Source ↗

TL;DR

ソロ開発者が24プロンプト・5アーム（baseline、”be brief.”、caveman lite/full/ultra）でテストし、2語がプラグインとほぼ同等のトークン数・品質を達成することを確認。

“be brief.” はbaselineに対してトークンを34%削減（平均636→419）。caveman liteとfullは近い結果、ultraは平均449トークンと”be brief.”より長かった。
正確性スコアは全5アームで1.5%以内に収まり、120件の採点対象すべてで必須ポイントの網羅率100%、must_avoidトリガーはゼロ。
cavemanのAuto-Clarityエスケープは、破壊的操作やマルチステップシーケンスで意図的に圧縮を一時停止する設計。setupカテゴリやsecurityカテゴリのトークン変動はバグではなく、この設計判断による。
ultraがDockerfileプロンプトでtool-use挙動を起こし（Writeツール呼び出し→ブロック→インライン出力）、setupカテゴリの平均に約1,300トークンが加算された。圧縮スタイルの副作用。
cavemanの本質的な差別化点は、SessionStart/UserPromptSubmitフックと強度調整スラッシュコマンドによる出力構造の一貫性。この部分はCLAUDE.mdの2語では再現できない。

著者がベンチマーク設計を補足：24プロンプト、5アーム、採点はclaude-sonnet-4-6がrubricに基づき必須事実・必須用語・must_avoidトラップを評価。手法はオープンソース。
あるコメント者はUXの観点からcavemanを一蹴。「圧縮されたロボット的な文体はトークン削減の効果に関係なく体験を損なう」と主張。

@lofaszvanitt: “Caveman is useless for me” ── トレードオフをトークン数対品質ではなく、快適さ対効率として捉えている。