LLMを活用して完全自動運転を目指すTuring社からの論文を読みました。
論文:NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations (https://arxiv.org/abs/2312.06352) WACV 2024 LLVM-AD Workshop
以下の図表は論文から引用。
どんなもの?
自動運転モデル作成のためのVQAタスクデータセットを、Markup-QAという手法を用いて構築。
作成したデータセットを用いてbaselineとなるモデルを作成。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/01/image-3-1024x535.png?resize=640%2C334&ssl=1)
先行研究と比べてどこがすごい?
長文で回答するような、VQAタスクの自動運転向けデータセットが新しい。
技術や手法のキモはどこ?
Markup-QAを用いることで、QAタスクは文章の品質とQAの正確性を測るように自然文に埋め込むことができる。
nuScenesデータセットから4種のコアコンセプトに従い、質問文のテンプレートを作成して、nuScenesのアノテーションを埋め込むことで、QAデータの作成を自動化することができる。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/01/image-4-1024x232.png?resize=640%2C145&ssl=1)
どうやって有効だと検証した?
作成されたQAデータセットの正解分布を調査し、十分に広い範囲をカバーしていることを確認。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/01/image-5-1024x529.png?resize=640%2C331&ssl=1)
複数モデルを作成して、複数の指標を用いて性能を確認。
![](https://i0.wp.com/10001ideas.com/wp-content/uploads/2024/01/image-6-1024x348.png?resize=640%2C218&ssl=1)
議論はある?
ルールベースでデータセットが構築されているため、データセットに自然言語の広い分布がない可能性を述べている。そのため大規模モデルでのトレーニングにとって最適ではない可能性が示唆されている。
また空間的な情報を答えるタスクのバラエティが少なく、モデルがそのような情報を正しく学習できてるかは不確実である。