Talkie: 1930年代以前のテキストだけで学習した130億パラメータの「ヴィンテージ」言語モデル
要点
- 2,600億トークンの1931年以前の英語テキストのみで130億パラメータモデルを学習し、AIの汎化・予測・汚染なし評価を研究したプロジェクト。
注目ポイント
- talkie-1930-13bは現時点で最大のヴィンテージLM。次の目標はGPT-3規模のモデルで、2026年夏を目処に1T超の歴史的コーパスで学習予定。
- 汚染なし設計により、ユニークな評価が可能に。Pythonコーディング、未来事象の予測、独立発明の発見を学習セット漏洩ゼロで試せる。
- OCR品質がデータのボトルネック:一般的なOCR書き起こしは人手書き起こしの学習効率の30%しか出ない。正規表現クリーニングで約70%まで回復できる。
- 時間的リーク(temporal leakage)の排除は困難:n-gramアナクロニズム分類器を使っても、13Bモデルはルーズベルトのニューディール政策や第二次世界大戦初期の知識を参照してしまった。
- Modern VLMベースのOCRは試したが不採用。現代の事実を幻覚でコーパスに混入させ、ヴィンテージ制約を直接汚染するため。
Hacker News コメント
- 現時点で有意な議論なし。
英語版: Talkie: a 13B vintage language model from 1930 · Original source