LLMを用いた効果的なVisual Perception, PerceptionGPT: Effectively Fusing Visual Perception into LLM

LLMとVisual Perceptionを組み合わせた論文を読んだ。
論文:PerceptionGPT: Effectively Fusing Visual Perception into LLM (CVPR 2024)

どんなもの?

Visual Large Language Models (VVLMs)を効率的にLLMの表現力を用いて学習することができるフレームワークであるPerceptionGPTを提案。軽量のvision encoderを使ってvisual perception signalを扱う。<vis>という特殊なトークンを用いることにより、従来手法で行われていたようなbox位置を直接学習する方法に比べて効率的に学習ができ、高精度を実現している。

先行研究と比べてどこがすごい?

先行研究ではbox位置等を直接VLMに教えていたが、学習が難しく長期の学習が必要になるという課題があった。perceptionに特化したencoder/decoderを活用することで、従来の学習の困難さを克服している。

技術や手法のキモはどこ?

<vis>というトークンに画像上での表現を集約して、実際のperception処理はvision encoder/decoderに任せるようにしている。

どうやって有効だと検証した?

RefCOCOデータセットなどを使って他のVLM SoTAモデルと性能を比較。汎用的なモデルに対しては性能で上回っており、一部のspecializedモデルに対しても優位な結果を出している。

出力例:


コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です