Appleから提案されているモバイルデバイス向けのCLIP学習手法とCLIPモデルの論文を読んだ。CVPR 2024で採択されている。
論文:MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training (CVPR 2024)
どんなもの?
モバイルデバイス向けのCLIPモデルを考案。効果的にトレーニングするために、画像キャプションモデルから知識を転移し、複数のCLIPモデルから特徴ベクトルをアンサンブルして学習に活用している。学習時に計算時間が増えてしまわないように、これらの情報は事前に計算しておくことで、高速に学習を実現している。
先行研究と比べてどこがすごい?
従来のCLIPモデルは大量のメモリやレイテンシーが大きいなどの理由で、モバイルデバイスへのデプロイに課題があった。提案手法の学習を行うことで、ViT-B/16程度のモデルに対して2.3倍高速な学習を行うことができ、精度性能も向上せいている。その他のサイズのモデルに対しても10倍から1000倍の学習高速化を実現している。
技術や手法のキモはどこ?
学習データセットに追加の情報を事前に計算しておき、それらの情報を使って学習することで、学習時の計算コストを抑えた状態で高速に学習することができる。
学習時のロス関数には、教師モデルとなる他の強力なCLIPモデルと中間特徴量を近づけるような損失関数が組み込まれており、小さいモデルながら大きいモデルに近づくように学習されている。
どうやって有効だと検証した?
複数のベンチマークデータセットにて、zero-shot性能を同等程度のモデルサイズ手法と比較して、高速に高性能を達成していることを確認。
議論はある?
論文ではモバイルデバイス向けの学習手法として提案されているが、この手法を用いて、さらにデータセットのボリュームを増やしてモデルサイズも増やしていけばどこまで性能向上することができるかが気になる。
次に読むべき論文は?
直接の関係はないが、比較対象のモデルであるところのFastViTが気になる。
“Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, and Anurag Ranjan. Fastvit: A fast hybrid vision transformer using structural reparameterization. arXiv preprint arXiv:2303.14189, 2023.”