Laguna XS.2とM.1——エージェント向けコーディングモデルの詳細

· ai ai-agents coding · Source ↗

まとめ

  • Lagunaがエージェント向けコーディング用に、M.1(225B-A23B MoE)とオープンウェイトのXS.2(33B-A3B、Apache 2.0)をリリース。合わせてACPエージェントランタイムも公開。

主なポイント

  • XS.2はパラメータ総数33B・有効化3BながらSWE-bench Pro 44.5%、SWE-bench Verified 68.2%を達成。ウェイトはApache 2.0で公開。
  • M.1(225B-A23B)は6,144基のNVIDIA Hopper GPUで30Tトークンをゼロから学習。SWE-bench Pro 46.9%、Terminal-Bench 2.0 40.7%を記録。
  • ACP server(エージェントハーネス)はRLトレーニング・評価で実際に使用したランタイムと同一。モデルとエージェントの乖離を埋める目的で公開。
  • AutoMixerは1回のrunで約60本のproxyモデルを学習し、事前学習データの配合を最適化。コードと数学で手動アブレーションを上回る効果を確認。
  • XS.2の事前学習データの13%がsyntheticデータ。Lagunaファミリー全体では事前学習の各ステージで4.4T+のsyntheticトークンを使用。

Hacker Newsのコメントから

  • 「pool」エージェント経由で先行評価したユーザーは、Codexやopencodeよりレスポンスが速くACP仕様への準拠度が高いと報告。Zedでの動作も良好。
  • Lagunaが公開したベンチマーク表では、Qwen3.6 35BがTerminal-Bench 2.0とSWE-bench ProでM.1 225Bを上回っており、パラメータ効率の差として注目されている。
  • カラーコードのベンチマークチャートはビジュアル面では洗練されているが読み取りにくいとの批判もあり、デザインの良さとは裏腹に信号抽出に手間がかかるという指摘。

注目コメント

  • @franksiem: 長年の観測者で、永遠にステルスのままと予想していたが、今回のリリースは「競争力のあるものとして実現した証拠」と評価。

Original | Discuss on HN


英語版: Laguna XS.2 and M.1 · Original source