一言でいうと
Vision Transoformerを使って点群データを処理する方法を考案
論文リンク
https://arxiv.org/abs/2012.09164
著者所属機関
Hengshuang Zhao1 Li Jiang2 Jiaya Jia2 Philip Torr1 Vladlen Koltun3
1 University of Oxford
2 The Chinese University of Hong Kong
3 Intel Labs
投稿日付(yyyyMMdd)
2020/12/16
掲載誌・学会等
https://arxiv.org/abs/2012.09164
先行研究と比べてどこがすごい?
VisionTransformerを点群データ処理のタスクに適用した。分類・パーツ分類・セマンティックセグメンテーションのタスクなどで今までのモデルよりも高性能でSoTAを達成。
技術や手法のキモはどこ?
VisionTransformerを点群データ処理に適用した点。点群データは位置情報の集合なのでVisionTransformerに自然にフィットする。
どうやって有効だと検証した?
セマンティックセグメンテーション・形状推定・オブジェクト分類などのタスクで既存のモデルと比較してSoTAを達成。またAblation StudyにてAttentionの取り方でScalar attentionとVector attentionを比較して、Vector Attentionのほうが大きく性能向上することを確かめている。
議論や検証がまだ必要なところはある?
速度性能は他の3D CNNと比べて現実的に適用可能なのか?
次に読むべき論文は?
既存モデルとして挙げられている3D CNNの論文は興味があれば読む。
コメント
VisionTransformerが3次元データに対しても有効なのが証明されている。点群データに対しての処理なので速度性能がどの程度出ているかが気になる。