LLMを活用して完全自動運転を目指すTuring社からの論文を読みました。
論文:NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations (https://arxiv.org/abs/2312.06352) WACV 2024 LLVM-AD Workshop
以下の図表は論文から引用。
どんなもの?
自動運転モデル作成のためのVQAタスクデータセットを、Markup-QAという手法を用いて構築。
作成したデータセットを用いてbaselineとなるモデルを作成。
先行研究と比べてどこがすごい?
長文で回答するような、VQAタスクの自動運転向けデータセットが新しい。
技術や手法のキモはどこ?
Markup-QAを用いることで、QAタスクは文章の品質とQAの正確性を測るように自然文に埋め込むことができる。
nuScenesデータセットから4種のコアコンセプトに従い、質問文のテンプレートを作成して、nuScenesのアノテーションを埋め込むことで、QAデータの作成を自動化することができる。
どうやって有効だと検証した?
作成されたQAデータセットの正解分布を調査し、十分に広い範囲をカバーしていることを確認。
複数モデルを作成して、複数の指標を用いて性能を確認。
議論はある?
ルールベースでデータセットが構築されているため、データセットに自然言語の広い分布がない可能性を述べている。そのため大規模モデルでのトレーニングにとって最適ではない可能性が示唆されている。
また空間的な情報を答えるタスクのバラエティが少なく、モデルがそのような情報を正しく学習できてるかは不確実である。