論文:Tracking Everything Everywhere All at Once(ICCV 2023)
デモページ:https://omnimotion.github.io/
どんなもの?
OmniMotionというocclusionに強く、長期のフレーム間で一貫性を保った構造を提案。
全ピクセルに対してtrackingを行うことが可能。
動画内の物体が動きによって見え方が変わった場合でも一貫性をもってtrackingできている。

先行研究と比べてどこがすごい?
長期間のtrackingが一貫性を保って行える点やocclusion耐性が既存手法に比べて強い。
技術や手法のキモはどこ?
いったん各フレームからCanonical 3D Volumeという3次元表現に変換して、異なるフレームにおけるマッピングを行う。
Canonical 3D Volumeを間に挟むことで、カメラ姿勢やシーンの背景ど動いている物体の情報を分離せずに時間と独立な表現を得ることができる。

どうやって有効だと検証した?
TAP-Vidなどの各種ベンチマークで既存の手法よりも高性能。
推論結果の定性的な評価でもocclusionが発生するケースなどで性能良く追従できている。

議論はある?
動画に対して後処理的に最適化を行っていくので、計算量が多いところが課題。NeRFの技術が発展していくにつれて効率の良い計算方法が生み出されていくだろうと著者らは述べている。
次に読むべき論文は?
2フレーム間でflowを計算する手法としてSoTAであるRAFTの論文が気になる。