ViTの構造を見直すことで高効率なアーキテクチャを提案している論文を読んだ。
論文:SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design (CVPR 2024)
どんなもの?
Vision Transformerの4×4パッチ埋め込み、4ステージの構造、multi-head attentionを詳細に調査し、各段階での冗長性を排除してメモリ効率の良い方法に変更して、高効率で精度の良いSHViTというSingle head transformerを提案。

初期ステージのattentionレイヤーは畳み込み層に置き換えることができ、multi-head attentionは特徴量の冗長性があることを確かめて、提案している構造に行きついている。


先行研究と比べてどこがすごい?
高効率なVision Transformerはtokenをどのように活用するかに主眼が置かれており、どのようにトークンを作成するかはあまり調査されてきていなかった。そのような観点からmacro/microな視点で冗長性を排除するような形で新規アーキテクチャを提案している。
技術や手法のキモはどこ?
最初の埋め込み層をCNNで置き換えて、TransformerブロックをStage1とStage2/3の二つに分けており、Stage2/3の方ではSingle-head attentionを活用する構造を用いることで高速なモデルを実現している。Single-head attentionはchannel方向に一定割合のチャンネル特徴のみをself-attentionにかける構造にしている。

どうやって有効だと検証した?
各種CNNや高効率なViTモデルと性能と速度のトレードオフを検証して、全体的に高効率で高精度な結果を出している。

議論はある?
16×16の埋め込みになるため、小物体の検出精度が落ちる懸念が書かれている。今後の課題として高解像度で小物体の検出を高精度かつ高速に行うような点が述べられている。
次に読むべき論文は?
関連研究として挙げられていた、multi-headの類似性をloss関数で抑えるような手法が提案されている論文。
“Tianlong Chen, Zhenyu Zhang, Yu Cheng, Ahmed Awadallah, and Zhangyang Wang. The principle of diversity: Training stronger vision transformers calls for reducing all levels of redundancy. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1202012030, 2022.”