X

[論文読み] NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations

LLMを活用して完全自動運転を目指すTuring社からの論文を読みました。

論文:NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations (https://arxiv.org/abs/2312.06352) WACV 2024 LLVM-AD Workshop

以下の図表は論文から引用。

どんなもの?

自動運転モデル作成のためのVQAタスクデータセットを、Markup-QAという手法を用いて構築。

作成したデータセットを用いてbaselineとなるモデルを作成。

先行研究と比べてどこがすごい?

長文で回答するような、VQAタスクの自動運転向けデータセットが新しい。

技術や手法のキモはどこ?

Markup-QAを用いることで、QAタスクは文章の品質とQAの正確性を測るように自然文に埋め込むことができる。

nuScenesデータセットから4種のコアコンセプトに従い、質問文のテンプレートを作成して、nuScenesのアノテーションを埋め込むことで、QAデータの作成を自動化することができる。

生成される文章の例

どうやって有効だと検証した?

作成されたQAデータセットの正解分布を調査し、十分に広い範囲をカバーしていることを確認。

複数モデルを作成して、複数の指標を用いて性能を確認。

議論はある?

ルールベースでデータセットが構築されているため、データセットに自然言語の広い分布がない可能性を述べている。そのため大規模モデルでのトレーニングにとって最適ではない可能性が示唆されている。

また空間的な情報を答えるタスクのバラエティが少なく、モデルがそのような情報を正しく学習できてるかは不確実である。

Hiro: