LLMを用いた効果的なVisual Perception, PerceptionGPT: Effectively Fusing Visual Perception into LLM

LLMとVisual Perceptionを組み合わせた論文を読んだ。
論文：PerceptionGPT: Effectively Fusing Visual Perception into LLM (CVPR 2024)

どんなもの？

Visual Large Language Models (VVLMs)を効率的にLLMの表現力を用いて学習することができるフレームワークであるPerceptionGPTを提案。軽量のvision encoderを使ってvisual perception signalを扱う。<vis>という特殊なトークンを用いることにより、従来手法で行われていたようなbox位置を直接学習する方法に比べて効率的に学習ができ、高精度を実現している。

先行研究と比べてどこがすごい？

先行研究ではbox位置等を直接VLMに教えていたが、学習が難しく長期の学習が必要になるという課題があった。perceptionに特化したencoder/decoderを活用することで、従来の学習の困難さを克服している。

技術や手法のキモはどこ？

<vis>というトークンに画像上での表現を集約して、実際のperception処理はvision encoder/decoderに任せるようにしている。

どうやって有効だと検証した？

RefCOCOデータセットなどを使って他のVLM SoTAモデルと性能を比較。汎用的なモデルに対しては性能で上回っており、一部のspecializedモデルに対しても優位な結果を出している。

出力例：

Pocket

LLMを用いた効果的なVisual Perception, PerceptionGPT: Effectively Fusing Visual Perception into LLM

どんなもの？

先行研究と比べてどこがすごい？

技術や手法のキモはどこ？

どうやって有効だと検証した？

関連

コメントするコメントをキャンセル

どんなもの？

先行研究と比べてどこがすごい？

技術や手法のキモはどこ？

どうやって有効だと検証した？

関連

コメントする コメントをキャンセル

コメントするコメントをキャンセル