LLMとVisual Perceptionを組み合わせた論文を読んだ。
論文:PerceptionGPT: Effectively Fusing Visual Perception into LLM (CVPR 2024)
どんなもの?
Visual Large Language Models (VVLMs)を効率的にLLMの表現力を用いて学習することができるフレームワークであるPerceptionGPTを提案。軽量のvision encoderを使ってvisual perception signalを扱う。<vis>という特殊なトークンを用いることにより、従来手法で行われていたようなbox位置を直接学習する方法に比べて効率的に学習ができ、高精度を実現している。
先行研究と比べてどこがすごい?
先行研究ではbox位置等を直接VLMに教えていたが、学習が難しく長期の学習が必要になるという課題があった。perceptionに特化したencoder/decoderを活用することで、従来の学習の困難さを克服している。
技術や手法のキモはどこ?
<vis>というトークンに画像上での表現を集約して、実際のperception処理はvision encoder/decoderに任せるようにしている。
どうやって有効だと検証した?
RefCOCOデータセットなどを使って他のVLM SoTAモデルと性能を比較。汎用的なモデルに対しては性能で上回っており、一部のspecializedモデルに対しても優位な結果を出している。
出力例: