Vision and Languageモデルの学習には非常に大きなデータセットが必要といわれている。そのデータセットを小さく圧縮する論文があったので読んでみた。
論文:Too Large; Data Reduction for Vision-Language Pre-Training (ICCV 2023)
実装:https://github.com/showlab/datacentric.vlp
どんなもの?
従来のVision-Language Pre-Trainingに用いるデータセットは、冗長性が高かったり、画像とテキストの整合性がとられていないなどの課題がある。例えば下図のように、GTが画像だけからはわからない内容になっていたりする。

このような洞察から、高品質で小規模なVision-Languageデータセットを構築する手法を提案。従来のデータセットでトレーニングしたモデルと同等程度の性能を出せるモデルを、15~25%程度のデータサイズに縮めたデータセットから学習できることを示した。50%程度のデータで学習した場合には、すべてのデータを使った場合に比べて、性能が向上しており、オリジナルのデータセットは画像とテキストが関連性の薄いサンプルが存在するなどの課題が確認できている。

先行研究と比べてどこがすごい?
従来の研究だと非常に大規模なデータセットが使われている。そのような大規模なデータセットも一応、クロールしてきたデータからフィルタリングが行われているがそのフィルタリングが不十分であることを示している。
従来のデータセットpruningの研究などでは大規模かつタスクに非依存な手法はあまり調査されてきていない。

技術や手法のキモはどこ?
コードブックと呼ばれる次元を絞ったパターンの表現に落とし込んで、そこからCaptionerを学習する。その後Samples selectionとCaption refiningというステップを経て、small datasetを構築する。
Samples selectionは画像ベクトル表現から、K-Meansクラスタリングを行い、M%のサンプルをランダムに取得。
Caption refiningではオリジナルのテキストに、生成されたテキストを結合することで、新たなCaptionとして活用する。

どうやって有効だと検証した?
各種の下流タスクで、ランダムにデータを削減した場合、オリジナルのデータで学習した場合、本手法で学習した場合を比較。多くのタスクで、オリジナルのデータで学習した場合と同等かさらに良い性能が出ていることを確認している。

議論はある?
下流タスクとして画像認識タスクを行った場合は、性能がオリジナルのデータで学習した場合よりも悪いケースが多く、著者らは画像特徴抽出の多様性が失われている可能性を示唆している。

次に読むべき論文は?
データセットpruiningの論文。
“Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, and Ari S Morcos. Beyond neural scaling laws: beating power law scaling via data pruning. NeurIPS, 2022.”