一言でいうと
Vision Transoformerを使って複数タスクに対応できる画像処理用のネットワークを考案。複数タスクでSoTAを達成。未知のタスクに対してもfine tuningすることで高精度で処理が可能。
論文リンク
https://arxiv.org/abs/2012.00364
著者所属機関
Hanting Chen1,2, Yunhe Wang2*, Tianyu Guo1,2, Chang Xu3, Yiping Deng4,
Zhenhua Liu2,5,6, Siwei Ma5,6, Chunjing Xu2, Chao Xu1, Wen Gao5,6
1 Key Lab of Machine Perception (MOE), Dept. of Machine Intelligence, Peking University. 2 Noah’s Ark Lab, Huawei Technologies.
3 School of Computer Science, Faculty of Engineering, The University of Sydney. 4 Central Software Institution, Huawei Technologies.
5 Institute of Digital Media, School of Electronic Engineering and Computer Science, Peking University. 6 Peng Cheng Laboratory.
投稿日付(yyyyMMdd)
2020/12/03
掲載誌・学会等
https://arxiv.org/abs/2012.00364
先行研究と比べてどこがすごい?
VisionTransformerを複数タスクに適用可能にしたところ。複数タスクでも高精度の画像処理が可能なことを示しており、画像処理においてもTransformerがBERTのように汎用的なモデルとして活用できる可能性を示している。
技術や手法のキモはどこ?
複数タスクを受け入れられるようにHEADとTAILのネットワークを工夫している。未知のタスクに対しても精度を上げるためにContrasiveLossを活用して工夫している。
どうやって有効だと検証した?
超解像やノイズ除去・雨除去などのタスクでSoTAを達成。未知のタスクに対してもファインチューニングが有効なことを示している。
議論や検証がまだ必要なところはある?
ここに挙げられている画像処理のほかにもキチンと活用できるか。そもそもGTが用意しにくいような画像処理の場合にどうすべきか。
次に読むべき論文は?
Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020.
コメント
画像処理にもTransformerの活用可能性が模索されているのが面白い。複数タスクに対応しつつもSoTAを達成しているのが凄い。これからこの手法を応用した他のタスクへの活用事例が出てくるだろう。