【論文読み】Point Transformer

一言でいうと

Vision Transoformerを使って点群データを処理する方法を考案

論文リンク

https://arxiv.org/abs/2012.09164

著者所属機関

Hengshuang Zhao1 Li Jiang2 Jiaya Jia2 Philip Torr1 Vladlen Koltun3
1 University of Oxford
2 The Chinese University of Hong Kong
3 Intel Labs

投稿日付(yyyyMMdd)

2020/12/16

掲載誌・学会等

https://arxiv.org/abs/2012.09164

先行研究と比べてどこがすごい?

VisionTransformerを点群データ処理のタスクに適用した。分類・パーツ分類・セマンティックセグメンテーションのタスクなどで今までのモデルよりも高性能でSoTAを達成。

技術や手法のキモはどこ?

VisionTransformerを点群データ処理に適用した点。点群データは位置情報の集合なのでVisionTransformerに自然にフィットする。

どうやって有効だと検証した?

セマンティックセグメンテーション・形状推定・オブジェクト分類などのタスクで既存のモデルと比較してSoTAを達成。またAblation StudyにてAttentionの取り方でScalar attentionとVector attentionを比較して、Vector Attentionのほうが大きく性能向上することを確かめている。

議論や検証がまだ必要なところはある?

速度性能は他の3D CNNと比べて現実的に適用可能なのか?

次に読むべき論文は?

既存モデルとして挙げられている3D CNNの論文は興味があれば読む。

コメント

VisionTransformerが3次元データに対しても有効なのが証明されている。点群データに対しての処理なので速度性能がどの程度出ているかが気になる。

【論文読み】Pre-Trained Image Processing Transformer

一言でいうと

Vision Transoformerを使って複数タスクに対応できる画像処理用のネットワークを考案。複数タスクでSoTAを達成。未知のタスクに対してもfine tuningすることで高精度で処理が可能。

論文リンク

https://arxiv.org/abs/2012.00364

著者所属機関

Hanting Chen1,2, Yunhe Wang2*, Tianyu Guo1,2, Chang Xu3, Yiping Deng4,
Zhenhua Liu2,5,6, Siwei Ma5,6, Chunjing Xu2, Chao Xu1, Wen Gao5,6
1 Key Lab of Machine Perception (MOE), Dept. of Machine Intelligence, Peking University. 2 Noah’s Ark Lab, Huawei Technologies.
3 School of Computer Science, Faculty of Engineering, The University of Sydney. 4 Central Software Institution, Huawei Technologies.
5 Institute of Digital Media, School of Electronic Engineering and Computer Science, Peking University. 6 Peng Cheng Laboratory.

投稿日付(yyyyMMdd)

2020/12/03

掲載誌・学会等

https://arxiv.org/abs/2012.00364

先行研究と比べてどこがすごい?

VisionTransformerを複数タスクに適用可能にしたところ。複数タスクでも高精度の画像処理が可能なことを示しており、画像処理においてもTransformerがBERTのように汎用的なモデルとして活用できる可能性を示している。

技術や手法のキモはどこ?

複数タスクを受け入れられるようにHEADとTAILのネットワークを工夫している。未知のタスクに対しても精度を上げるためにContrasiveLossを活用して工夫している。

どうやって有効だと検証した?

超解像やノイズ除去・雨除去などのタスクでSoTAを達成。未知のタスクに対してもファインチューニングが有効なことを示している。

議論や検証がまだ必要なところはある?

ここに挙げられている画像処理のほかにもキチンと活用できるか。そもそもGTが用意しにくいような画像処理の場合にどうすべきか。

次に読むべき論文は?

Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020.

コメント

画像処理にもTransformerの活用可能性が模索されているのが面白い。複数タスクに対応しつつもSoTAを達成しているのが凄い。これからこの手法を応用した他のタスクへの活用事例が出てくるだろう。