LLMとVisual Perceptionを組み合わせた論文を読んだ。
論文:PerceptionGPT: Effectively Fusing Visual Perception into LLM (CVPR 2024)
どんなもの?
Visual Large Language Models (VVLMs)を効率的にLLMの表現力を用いて学習することができるフレームワークであるPerceptionGPTを提案。軽量のvision encoderを使ってvisual perception signalを扱う。<vis>という特殊なトークンを用いることにより、従来手法で行われていたようなbox位置を直接学習する方法に比べて効率的に学習ができ、高精度を実現している。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/05/image-6-1024x513.png?resize=640%2C321&ssl=1)
先行研究と比べてどこがすごい?
先行研究ではbox位置等を直接VLMに教えていたが、学習が難しく長期の学習が必要になるという課題があった。perceptionに特化したencoder/decoderを活用することで、従来の学習の困難さを克服している。
技術や手法のキモはどこ?
<vis>というトークンに画像上での表現を集約して、実際のperception処理はvision encoder/decoderに任せるようにしている。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/05/image-5.png?resize=559%2C458&ssl=1)
どうやって有効だと検証した?
RefCOCOデータセットなどを使って他のVLM SoTAモデルと性能を比較。汎用的なモデルに対しては性能で上回っており、一部のspecializedモデルに対しても優位な結果を出している。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/05/image-8-1024x447.png?resize=640%2C279&ssl=1)
出力例:
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/05/image-7-921x1024.png?resize=640%2C712&ssl=1)