[論文読み] 高速なOpen Vocabulary 物体検出 YOLO-World: Real-Time Open-Vocabulary Object Detection

Hiro

2年 ago

Categories: 機械学習論文

高速にOpen Vocabulary物体検出を行う手法の論文を読んだ。YOLO-World: Real-Time Open-Vocabulary Object Detection (CVPR 2024)

どんなもの？

Open Vocabulary 物体検出問題にて、精度と推論測度を両立したモデルを提案。Vision Language PANというモジュールを用いて、画像とテキストの両方を混ぜ合わせるような仕組みを取り入れている。YOLOをベースにすることで軽量な検出モデルとなっている。

従来のOpen Vocabulary 物体検出と比べると非常に高速。なおかつ検出精度を向上することができている。

VisionとTextを混ぜ込むRe-parametirization Vision Language PANというモジュールの提案。

LVISデータセットを用いて検証。Open Vocabulary の設定ではない従来のYOLO v8に対しても、Open Vocabulary 物体検出で精度を上回っている。

また自由な入力テキストに対してもうまく検出できている例が挙げられている。