[論文読み] 物体検出に適した事前学習手法を提案 AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

事前学習手法の物体検出への適用時に発生する問題点を挙げて、物体検出に適した事前学習手法を提案しているAlignDet: Aligning Pre-training and Fine-tuning in Object Detectionという論文を読んだ。

論文:AlignDet: Aligning Pre-training and Fine-tuning in Object Detection https://arxiv.org/abs/2307.11077 (ICCV 2023)

どんなもの?

Self-Supervised learningにおいて、物体検出を下流タスクとした場合に、事前学習のさせ方と下流タスクの際により性能が出にくいという課題があった。課題を3つの観点に分類して、それぞれを解消するような仕組みであるAlignDetを提案。

先行研究と比べてどこがすごい?

pre-trainingにおいて、downstream タスクと異なる形で事前学習が行われる手法が多く、物体検出を下流タスクとした場合、data, model, taskの三点で事前学習のさせ方に物体検出と差異があった。

dataに関してはimagenetのように、物体が1つだけ写っている画像で事前学習しており、通常の物体検出データセットとは異なる。modelに関しては、通常backboneが事前学習の対象となり、head部分は対象となっていない。taskに関しては、事前学習ではclassificationだが、物体検出では回帰タスクが入ってくる。これら3つの差異をなくす形の事前学習手法を提案している。

技術や手法のキモはどこ?

画像から物体候補位置を検出して、それぞれに対して2グループの変換をかけて、それらに対して対称学習を行う。

どうやって有効だと検証した?

FCOS, RetinaNet, Faster R-CNN, Mask R-CNNなどの物体検出手法にAlignDetを適用することで、少ないデータ量でも精度向上を実現。

既存の事前学習手法と比べても、短い事前学習時間で高い精度を出せることを確認している。

議論はある?

どのようにしてAlignDetが3つの差異を吸収していくかが書かれている。dataに関しては通常のdetectionデータセットを活用。modelに関してはnetworkのhead部分までpre-trainingする。taskについてはregressionとclassificationを事前学習で学習する。これらによりalignmentがとれていると主張している。


コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です