[論文読み] Tracking Everything Everywhere All at Once

どんなもの？

OmniMotionというocclusionに強く、長期のフレーム間で一貫性を保った構造を提案。
全ピクセルに対してtrackingを行うことが可能。
動画内の物体が動きによって見え方が変わった場合でも一貫性をもってtrackingできている。

長期間のtrackingが一貫性を保って行える点やocclusion耐性が既存手法に比べて強い。

いったん各フレームからCanonical 3D Volumeという3次元表現に変換して、異なるフレームにおけるマッピングを行う。
Canonical 3D Volumeを間に挟むことで、カメラ姿勢やシーンの背景ど動いている物体の情報を分離せずに時間と独立な表現を得ることができる。

TAP-Vidなどの各種ベンチマークで既存の手法よりも高性能。
推論結果の定性的な評価でもocclusionが発生するケースなどで性能良く追従できている。

動画に対して後処理的に最適化を行っていくので、計算量が多いところが課題。NeRFの技術が発展していくにつれて効率の良い計算方法が生み出されていくだろうと著者らは述べている。

２フレーム間でflowを計算する手法としてSoTAであるRAFTの論文が気になる。

Hiro: