[論文読み] Vision&Languageによる自動運転タスクの精度向上:VLP: Vision Language Planning for Autonomous Driving

CVPR 2024に採択されている、Vision&Languageにより自動運転タスクの性能向上を行う論文を読んだ。著者らはSyracuse大学とBosch Research所属。
論文:VLP: Vision Language Planning for Autonomous Driving (CVPR 2024)

どんなもの?

自動運転に向けた認識タスクを学習するために、VLPというVision Languageを組み合わせた学習手法を提案。VLPはALPとSLPという二つのコンポーネントで構成されている。

ALPはAgent-centric Learning Paradaigmの略で、language modelとagentのBEV空間上での特徴が整合するように学習する。

SLPはself-driving-car-centric Learning Paradigmで将来の自車の挙動が、languge modelの特徴と整合するように学習することで、motion planningがよりロバストになることを目指している。

先行研究と比べてどこがすごい?

Language modelを自動運転に統合した手法はいくつか出始めてきているが、自動運転の複数ステージにLanguage modelを活用して、新しい環境やlong-tailケースへのロバスト性を確保しているところに新規性がある。

技術や手法のキモはどこ?

ALPとSLPという学習方法を提案することで、自動運転車に必要な複数プロセスにおいて言語モデルの特徴から一般常識的な特徴を活用することができる。

どうやって有効だと検証した?

nuScenesデータセットを活用して、従来の認識手法と比較。従来手法よりも高い性能が出ている。また、nuScenesのBoston、Singaporeの片方で学習して片方でテストする実験を行い、高い汎化性能が出ていることを確認している。

議論はある?

nuScenesでのみテストしているため、他のテストデータでの性能や、複数モダリティの入力の場合でも性能向上が見込めるかは今後の研究課題として挙げられている。


コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です