ファインチューニングに代わる強力なアプローチ
Poetiq CEO Ian Fischer が、7人構成の元DeepMindチームが再帰的自己改善ハーネスを用いてファインチューニングなしでClaude Opus 4.6をHumanity’s Last Examで上回った手法を解説する。
- PoeticqのシステムはAnthropicのClaude Opus 4.6をHumanity’s Last Examで上回った:55% vs 53.1%、最適化コストは10万ドル未満。
- ARC-AGI v2ではGemini 3 Deep Thinkの45%に対して54%を記録し、コストは半分以下($32/問題 vs 約$70以上)。
- プロンプトに推論ハーネスを追加するだけで、あるベンチマークタスクのスコアがGemini 1.5 Flashで5%から95%に向上した。
- スタートアップにとってファインチューニングは罠だ:数百万ドルのコストをかけても、次のフロンティアモデルが出た瞬間に陳腐化する。ハーネスはモデル非依存のまま使い続けられる。
- Poetiqのメタシステムは「より良いプロンプト」ではなく、推論戦略をコードとして自動生成する——DSPYに近いが、再帰的に自己改善する点が異なる。
- ARC-AGI向けに生成されたプロンプトには事実として誤った例が含まれていたにもかかわらず性能が向上した——システムが人間とは異なる戦略を発見した証拠だ。
- 会社全体で7人(研究科学者とエンジニアのみ)。新しいベースモデルがリリースされてもハーネスの再トレーニングは不要。
2026-02-27 · YouTubeで視聴する
英語版: The Powerful Alternative To Fine-Tuning · Watch on YouTube