LingBot-Map: ストリーミング3D再構成とGeometric Context Transformer
まとめ
- LingBot-Mapは、GCA(Geometric Context Attention)と呼ばれる学習済み幾何状態を使い、10,000フレーム以上にわたって約20 FPSで3D再構成をストリーミング処理。フレームあたりのメモリと計算量をほぼ一定に保つ。
ポイント
- GCAは3つの相補的な状態を保持する:座標・スケールの基準となるアンカー、局所的なポーズ参照ウィンドウ、そしてフレームごとのトークンに圧縮された軌跡メモリ。
- 軌跡メモリがスケーリングの核心:シーケンス長によらずフレームあたりのコストを一定に保つため、全履歴を圧縮する仕組みになっている。
- パイプラインはDINO画像バックボーンと、Frame AttentionレイヤーとGCAレイヤーの交互配置で構成され、最終的にカメラポーズと深度マップの2つのヘッドに分岐する。
- Robbyant(蚂蚁灵波科技)はLingBot-Mapを、LingBot-Depth(空間知覚)、LingBot-VLA、LingBot-World、LingBot-VAを含む広範なembodied-AIスタックの1モジュールとして位置づけている。
- 約20 FPSは518×378解像度での値。リリース文にはハードウェア要件の記載がない。
Hacker News コメントレビュー
- 唯一のコメントが、ロボティクス・ビジョン系ベンチマークでよく見られる問題点を指摘:ハードウェアスペックなしのスループット数値は、特にデプロイ計画の観点から評価しにくい。
- 比較的小型と説明されているモデルだけに、エッジやオンボードの計算リソースに乗るかどうかを判断したい実務者には、ハードウェア情報の欠如が特に気になるところ。
注目コメント
- @avaer: “~20 FPS at 518x378 – But on what hardware? I couldn’t find it.”
英語版: LingBot-Map: Streaming 3D reconstruction with geometric context transformer · Original source