Talkie: 1930年代以前のテキストだけで学習した130億パラメータの「ヴィンテージ」言語モデル

· ai · Source ↗

要点

  • 2,600億トークンの1931年以前の英語テキストのみで130億パラメータモデルを学習し、AIの汎化・予測・汚染なし評価を研究したプロジェクト。

注目ポイント

  • talkie-1930-13bは現時点で最大のヴィンテージLM。次の目標はGPT-3規模のモデルで、2026年夏を目処に1T超の歴史的コーパスで学習予定。
  • 汚染なし設計により、ユニークな評価が可能に。Pythonコーディング、未来事象の予測、独立発明の発見を学習セット漏洩ゼロで試せる。
  • OCR品質がデータのボトルネック:一般的なOCR書き起こしは人手書き起こしの学習効率の30%しか出ない。正規表現クリーニングで約70%まで回復できる。
  • 時間的リーク(temporal leakage)の排除は困難:n-gramアナクロニズム分類器を使っても、13Bモデルはルーズベルトのニューディール政策や第二次世界大戦初期の知識を参照してしまった。
  • Modern VLMベースのOCRは試したが不採用。現代の事実を幻覚でコーパスに混入させ、ヴィンテージ制約を直接汚染するため。

Hacker News コメント

  • 現時点で有意な議論なし。

原文 | HNで議論する


英語版: Talkie: a 13B vintage language model from 1930 · Original source