単純なアイデアで学習精度を保ったまま高速化を実現した、カリキュラム学習の論文を読んだ。
論文:EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones (ICCV 2023)
どんなもの?
フーリエ変換を使って、画像の高周波成分を除去した画像から学習していく、カリキュラム学習の手法。
通常の学習に比べて、同等程度の精度を保ちつつ、学習時間を1.5倍程度高速化することができる。
ネットワークには手を加える必要はないため、汎用的に様々なネットワークの学習に適用することができる。
先行研究と比べてどこがすごい?
従来のカリキュラム学習は、簡単なデータから順番に学習していく方式や、複雑な方式で学習されていた。難しいデータか否かを判別するのは、一律のルールで行うことが難しい。また、難しいサンプルであると判断されたデータであっても、学習に有用なケースが存在する。
本手法はすべてのデータサンプルを学習の最初の段階から学習することができるため、効率的にデータを活用することができ、ベースラインモデルと同等程度の精度を保ちながら高速に学習することができる。
技術や手法のキモはどこにある?
画像をフーリエ変換して、周波数空間で高周波成分を最初は除いたデータを用いて学習していく。徐々に高周波成分を取り入れて学習していくことで、最終的な精度を確保する。
どうやって有効だと検証した?
複数のデータセットにおいて、精度と学習時間をベースライン学習と比較。精度はほぼ同等だが、学習時間を1.5倍程度高速化することに成功している。
議論はあるか?
学習時間を高速化することができているので、そのままベースラインにかかっていた学習epochまで学習を伸ばしたら、性能向上しないのかが気になった。論文には特に書かれていない。
次に読むべき論文は?
周波数成分が学習に与える影響が書かれている論文が気になる。
Haohan Wang, Xindi Wu, Zeyi Huang, and Eric P Xing. High-frequency component helps explain the generalization of convolutional neural networks. In CVPR, pages 8684–8694, 2020.