LLMを用いた効果的なVisual Perception, PerceptionGPT: Effectively Fusing Visual Perception into LLM

Hiro

2年 ago

Categories: 機械学習論文

LLMを用いた効果的なVisual Perception, PerceptionGPT: Effectively Fusing Visual Perception into LLM

LLMとVisual Perceptionを組み合わせた論文を読んだ。
論文：PerceptionGPT: Effectively Fusing Visual Perception into LLM (CVPR 2024)

どんなもの？

Visual Large Language Models (VVLMs)を効率的にLLMの表現力を用いて学習することができるフレームワークであるPerceptionGPTを提案。軽量のvision encoderを使ってvisual perception signalを扱う。<vis>という特殊なトークンを用いることにより、従来手法で行われていたようなbox位置を直接学習する方法に比べて効率的に学習ができ、高精度を実現している。

先行研究と比べてどこがすごい？

先行研究ではbox位置等を直接VLMに教えていたが、学習が難しく長期の学習が必要になるという課題があった。perceptionに特化したencoder/decoderを活用することで、従来の学習の困難さを克服している。

技術や手法のキモはどこ？

<vis>というトークンに画像上での表現を集約して、実際のperception処理はvision encoder/decoderに任せるようにしている。

どうやって有効だと検証した？

RefCOCOデータセットなどを使って他のVLM SoTAモデルと性能を比較。汎用的なモデルに対しては性能で上回っており、一部のspecializedモデルに対しても優位な結果を出している。

出力例：

LLMを用いた効果的なVisual Perception, PerceptionGPT: Effectively Fusing Visual Perception into LLM

どんなもの？

先行研究と比べてどこがすごい？

技術や手法のキモはどこ？

どうやって有効だと検証した？

関連

[論文読み] シンプルなカリキュラム学習で精度を保って高速化 EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones

[論文読み] NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations

[論文読み] Synthetic画像でのScaling則：Scaling Laws of Synthetic Images for Model Training … for Now