TikTokから出ている単眼深度推定の論文「Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data」を読みました。
URL: https://arxiv.org/abs/2401.10891
Project page: https://depth-anything.github.io/
どんなもの?
単眼深度推定タスクにおいて、大量の未ラベル画像を用いることで、高精度な深度推定ネットワークを構築。
先行研究と比べてどこがすごい?
先行研究ではこの研究で使われているような非常に大量の未ラベル画像を活用する方法が模索されていなかった。そのため、先行研究ではデータがカバーしていない範囲での性能が著しく低いケースが存在していた。
幅広いケースにおいて、先行研究と比べて高い精度性能が出せているところがすごい。
技術や手法のキモはどこ?
未ラベル画像に対して、ラベル付けを行うことなく、疑似ラベルから学習する方法を確立。単純に疑似ラベルを付けて学習するだけではうまくいかないため、student modelを学習する際にsemantic segmentationを同時に学習したり、強いperturbationを加えて学習するなどの工夫を行っている。
どうやって有効だと検証した?
広く使われているKITTI, NYUv2, Sintel, DDAD, ETH3D, DIDOEなどのデータセットにてMiDaS v3.1と性能を比較してzero-shot性能が高いことを示している。
議論はある?
ViT-Lを用いているが、もっと大きなViT-Grantを使うことで性能向上がさらに見込める可能性があると述べている。また、画像サイズを512×512で実験しているが、画像の解像度をさらに上げることで性能が伸びていく可能性を示唆している。
次に読むべき論文は?
Birkl, Reiner, Diana Wofk, and Matthias Müller. “MiDaS v3. 1–A Model Zoo for Robust Monocular Relative Depth Estimation.” arXiv preprint arXiv:2307.14460 (2023).