LingBot-Map: ストリーミング3D再構成とGeometric Context Transformer

Apr 28, 2026 · ai · Source ↗

まとめ

LingBot-Mapは、GCA（Geometric Context Attention）と呼ばれる学習済み幾何状態を使い、10,000フレーム以上にわたって約20 FPSで3D再構成をストリーミング処理。フレームあたりのメモリと計算量をほぼ一定に保つ。

ポイント

GCAは3つの相補的な状態を保持する：座標・スケールの基準となるアンカー、局所的なポーズ参照ウィンドウ、そしてフレームごとのトークンに圧縮された軌跡メモリ。
軌跡メモリがスケーリングの核心：シーケンス長によらずフレームあたりのコストを一定に保つため、全履歴を圧縮する仕組みになっている。
パイプラインはDINO画像バックボーンと、Frame AttentionレイヤーとGCAレイヤーの交互配置で構成され、最終的にカメラポーズと深度マップの2つのヘッドに分岐する。
Robbyant（蚂蚁灵波科技）はLingBot-Mapを、LingBot-Depth（空間知覚）、LingBot-VLA、LingBot-World、LingBot-VAを含む広範なembodied-AIスタックの1モジュールとして位置づけている。
約20 FPSは518×378解像度での値。リリース文にはハードウェア要件の記載がない。

Hacker News コメントレビュー

唯一のコメントが、ロボティクス・ビジョン系ベンチマークでよく見られる問題点を指摘：ハードウェアスペックなしのスループット数値は、特にデプロイ計画の観点から評価しにくい。
比較的小型と説明されているモデルだけに、エッジやオンボードの計算リソースに乗るかどうかを判断したい実務者には、ハードウェア情報の欠如が特に気になるところ。

注目コメント

@avaer: “~20 FPS at 518x378 – But on what hardware? I couldn’t find it.”

原文 | HNで議論する

英語版: LingBot-Map: Streaming 3D reconstruction with geometric context transformer · Original source