高速にOpen Vocabulary物体検出を行う手法の論文を読んだ。YOLO-World: Real-Time Open-Vocabulary Object Detection (CVPR 2024)
どんなもの?
Open Vocabulary 物体検出問題にて、精度と推論測度を両立したモデルを提案。Vision Language PANというモジュールを用いて、画像とテキストの両方を混ぜ合わせるような仕組みを取り入れている。YOLOをベースにすることで軽量な検出モデルとなっている。
先行研究と比べてどこがすごい?
従来のOpen Vocabulary 物体検出と比べると非常に高速。なおかつ検出精度を向上することができている。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/04/image-4.png?resize=602%2C558&ssl=1)
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/04/image-5-1024x539.png?resize=640%2C337&ssl=1)
技術や手法のキモはどこ?
VisionとTextを混ぜ込むRe-parametirization Vision Language PANというモジュールの提案。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/04/image-6.png?resize=554%2C585&ssl=1)
どうやって有効だと検証した?
LVISデータセットを用いて検証。Open Vocabulary の設定ではない従来のYOLO v8に対しても、Open Vocabulary 物体検出で精度を上回っている。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/04/image-7.png?resize=542%2C550&ssl=1)
また自由な入力テキストに対してもうまく検出できている例が挙げられている。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/04/image-8-1024x826.png?resize=640%2C516&ssl=1)