パラメータ数とコンピュート量、どちらが重要か?(2021年)
要約
- 大規模言語モデルにおけるモデルパラメータ数とトレーニングコンピュート予算のスケーリングトレードオフを検証した論文。
ポイント
- 核心的な問い:固定コンピュート予算のもとで、大きなモデルを少ないステップで学習させるか、小さなモデルを長く学習させるか。
- Kaplan et al.(2020)のスケーリング則はパラメータ数優位を示唆していたが、後のChinchilla(2022)はモデルが十分に学習されていなかった点を指摘し、この見方に異議を唱えた。
- 最適な割り当ては、トレーニングコスト最適化と推論コスト最適化のどちらを優先するかによって変わる――スケール時の推論では、よく学習された小さなモデルが有利になる。
- より長い学習ランのためにGPUを増やすか、より大きなアーキテクチャに移行するかを検討しているチームに直接関係する問いだ。
Hacker News コメントレビュー
- 現時点で実質的な議論はまだない。
英語版: Which one is more important: more parameters or more computation? (2021) · Original source