CNNの構造をmathematical programmingで探索することで短時間で高性能なモデルを探索した論文を読んだのでメモ。
論文:DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network (CVPR 2023)
■どんなもの?
CNNベースのモデルをmathematical programmingを用いることで良いNetwork構造を探索。
■先行研究と比べてどこがすごい?
従来のNASは大量の計算時間が必要であったが、mathematical programmingの問題として定式化することで、CPUで数分でネットワーク構造を最適化することができる。
■技術や手法のキモはどこ?
networkの表現力を表すentropyと制約を表すeffectivenessを用いることで、表現力と性能のバランスを取ったモデルを提案することができている。
■どうやって有効だと検証した?
各種ベンチマークで既存のSOTAを超える性能。CNNベースだがViTに対しても同等以上の性能が出ている。複数のvision taskにて、transferableなことも確認。
■議論はある?
・MobileNetに対しては、わずかに性能が及んでいないが、MobileNet自体は3800GPU daysをかけて作られているので、処理時間的には優れていると主張している。
・mathematical programmingの形式化に際して、実験的なガイドラインを導入しているが理論的な裏付けがないことは著者らも認識している。
・CNNにフォーカスしており、ViTのようなTransformerベースのモデルに対しても使えるようにしていくことが今後の課題。
■次に読むべき論文は?
・関連研究で挙げらていた、RepLKNetが気になる。
“Scaling up your kernels to 31×31: Revisiting large kernel design in cnns”