低いFLOPSのモデルで大規模な事前学習データセットを活用する際に効果的に学習するモデルを提案している論文を読んだ。
論文:ParameterNet: Parameters Are All You Need (CVPR 2024)
どんなもの?
low-FLOPSなモデルは大規模な事前学習データセットを使った場合に、性能向上がみられないという現象(low FLOPS pitfall)を発見。
dynamic convolutionを使うことにより、FLOPSを大きく上げることなくパラメータ数を増やすことができ、それにより大規模事前学習データセットでの性能向上を実現。
先行研究と比べてどこがすごい?
先行研究ではlow flops pitfallはおそらく確認されておらず、その現象を改めて実験によって確認し、その対策を提案。Swin Transformerよりも1/7程度のFLOPSでImageNet性能が上回るモデルを作れている。
技術や手法のキモはどこ?
dynamic convolutionを使うことで、推論時のFLOPSを大きく増やすことなく、実質的なパラメータ数を増加させて、modelのcapacityを増やすことでlow FLOPS pitfallを克服している。
どうやって有効だと検証した?
画像と自然言語の分野で、FLOPSの高いモデルよりも低いFLOPSにて、精度性能が高くなることを確認している。
議論はある?
論文中のablation studyにて、dynamic convolutionの数を増やせば性能が向上すると書かれているが、実験がM=4で止まっているのは気になる。まだ増やせば性能向上できそうに思える。
次に読むべき論文は?
Dynamic Convolutionの論文をちゃんと読みたい。
“Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, and Zicheng Liu. Dynamic convolution: Attention over convolution kernels. In CVPR, pages 1103011039, 2020.”