Claude Codeのcavemanプラグインと「be brief.」の2語を比較ベンチマーク
TL;DR
- ソロ開発者が24プロンプト・5アーム(baseline、”be brief.”、caveman lite/full/ultra)でテストし、2語がプラグインとほぼ同等のトークン数・品質を達成することを確認。
まとめ
- “be brief.” はbaselineに対してトークンを34%削減(平均636→419)。caveman liteとfullは近い結果、ultraは平均449トークンと”be brief.”より長かった。
- 正確性スコアは全5アームで1.5%以内に収まり、120件の採点対象すべてで必須ポイントの網羅率100%、must_avoidトリガーはゼロ。
- cavemanのAuto-Clarityエスケープは、破壊的操作やマルチステップシーケンスで意図的に圧縮を一時停止する設計。setupカテゴリやsecurityカテゴリのトークン変動はバグではなく、この設計判断による。
- ultraがDockerfileプロンプトでtool-use挙動を起こし(Writeツール呼び出し→ブロック→インライン出力)、setupカテゴリの平均に約1,300トークンが加算された。圧縮スタイルの副作用。
- cavemanの本質的な差別化点は、SessionStart/UserPromptSubmitフックと強度調整スラッシュコマンドによる出力構造の一貫性。この部分はCLAUDE.mdの2語では再現できない。
Hacker Newsコメント
- 著者がベンチマーク設計を補足:24プロンプト、5アーム、採点はclaude-sonnet-4-6がrubricに基づき必須事実・必須用語・must_avoidトラップを評価。手法はオープンソース。
- あるコメント者はUXの観点からcavemanを一蹴。「圧縮されたロボット的な文体はトークン削減の効果に関係なく体験を損なう」と主張。
注目コメント
- @lofaszvanitt: “Caveman is useless for me” ── トレードオフをトークン数対品質ではなく、快適さ対効率として捉えている。
英語版: I benchmarked Claude Code’s caveman plugin against “be brief.” · Original source
Next →