Talkie: 1930年代以前のテキストだけで学習した130億パラメータの「ヴィンテージ」言語モデル

Apr 28, 2026 · ai · Source ↗

要点

talkie-1930-13bは現時点で最大のヴィンテージLM。次の目標はGPT-3規模のモデルで、2026年夏を目処に1T超の歴史的コーパスで学習予定。
汚染なし設計により、ユニークな評価が可能に。Pythonコーディング、未来事象の予測、独立発明の発見を学習セット漏洩ゼロで試せる。
OCR品質がデータのボトルネック：一般的なOCR書き起こしは人手書き起こしの学習効率の30%しか出ない。正規表現クリーニングで約70%まで回復できる。
時間的リーク（temporal leakage）の排除は困難：n-gramアナクロニズム分類器を使っても、13Bモデルはルーズベルトのニューディール政策や第二次世界大戦初期の知識を参照してしまった。
Modern VLMベースのOCRは試したが不採用。現代の事実を幻覚でコーパスに混入させ、ヴィンテージ制約を直接汚染するため。