LingBot-Map: ストリーミング3D再構成とGeometric Context Transformer

· ai · Source ↗

まとめ

  • LingBot-Mapは、GCA(Geometric Context Attention)と呼ばれる学習済み幾何状態を使い、10,000フレーム以上にわたって約20 FPSで3D再構成をストリーミング処理。フレームあたりのメモリと計算量をほぼ一定に保つ。

ポイント

  • GCAは3つの相補的な状態を保持する:座標・スケールの基準となるアンカー、局所的なポーズ参照ウィンドウ、そしてフレームごとのトークンに圧縮された軌跡メモリ。
  • 軌跡メモリがスケーリングの核心:シーケンス長によらずフレームあたりのコストを一定に保つため、全履歴を圧縮する仕組みになっている。
  • パイプラインはDINO画像バックボーンと、Frame AttentionレイヤーとGCAレイヤーの交互配置で構成され、最終的にカメラポーズと深度マップの2つのヘッドに分岐する。
  • Robbyant(蚂蚁灵波科技)はLingBot-Mapを、LingBot-Depth(空間知覚)、LingBot-VLA、LingBot-World、LingBot-VAを含む広範なembodied-AIスタックの1モジュールとして位置づけている。
  • 約20 FPSは518×378解像度での値。リリース文にはハードウェア要件の記載がない。

Hacker News コメントレビュー

  • 唯一のコメントが、ロボティクス・ビジョン系ベンチマークでよく見られる問題点を指摘:ハードウェアスペックなしのスループット数値は、特にデプロイ計画の観点から評価しにくい。
  • 比較的小型と説明されているモデルだけに、エッジやオンボードの計算リソースに乗るかどうかを判断したい実務者には、ハードウェア情報の欠如が特に気になるところ。

注目コメント

  • @avaer: “~20 FPS at 518x378 – But on what hardware? I couldn’t find it.”

原文 | HNで議論する


英語版: LingBot-Map: Streaming 3D reconstruction with geometric context transformer · Original source