Physical AIの幕開け：「基盤モデル×ロボット」で何が起きているのか？

ここ最近、「Physical AI」という概念がバズワードのように盛り上がりつつあるのを感じる。ロボットなどの身体性を持った機械にAIを組み込んでいく、という流れがいよいよ本格化してきた。

従来のLLMや画像認識AIと比べて、身体性を持つAIにはどのような特殊性があるのか？そのあたりが気になっていたところ、ちょうど良さそうな本が出版されたので読んでみた。

内容は、基盤モデルの登場によってロボットの研究がどう変わっていっているのかを俯瞰的に解説したもの。中盤は論文の紹介がメインになっていて、近年の研究トレンドをざっと把握するのにちょうどいい。新たにこの分野に取り組むITエンジニアにとっては、最初に読む「地図」のような一冊として適していると思う。

特に最後の方に書かれていた「今後の展望」は、第一線の研究者の肌感覚や知見が垣間見られて、この分野の進歩を予測する上で非常に有益だった。現状の基盤モデルに対する限界やその理由（なぜロボットだと上手くいかないのかなど）もしっかり考察されており、裏を返せば、これからその辺りがエンジニアにとっての研究開発ターゲットになるのだろう。

以下、備忘録として読書メモ。

・P5. これまではあまり多く研究されてきたとはいえない「言語を扱うロボット研究」が、現在、信じられないスピードで進み、研究の数も大幅に増えています。LLMを使ってタスクをサブタスクに分解して実行することは、もはやロボット研究では当たり前の話になりつつあります。

・P37. (三次元点群の表現方法について) 点群の各点にガウス分布を付与し、よりレンダリングに適する表現としたGaussian Splattingと呼ばれるデータ構造もあります。

・P40 (トークン作成について) 近年はBPE(Byte Pair Encoding)と呼ばれるアルゴリズムやSentencePieceのようなツールにより、文字ベース（あるいはUnicodeの1バイトベース）の語彙から与えられたコーパスを最もカバーできるような分割を作ります。

・P52 なお、深度画像はデータ数の少なさと扱いの難しさから、基盤モデルでもいまだにうまく扱えている領域ではありません。（なので、古典的な手法がいまだに使われることも多い）

・P103 CLIPにはいくつかの派生モデルがあります。例えばSigLIPはCLIPの類似度の計算部分で使われていたソフトマックス関数をシグモイド関数に置き換えることで、学習時に必要な負例が削減でき、事前学習のスケール化・効率化ができるように工夫されています。

・P121 Socratic Modelsは、これまで開発されてきた大規模言語モデル（LLM）、視覚言語モデル（VLM）、音声言語モデル（ALM）を、言語を介することで相補的に組み合わせられることに着目し、さまざまな応用例を示したコンセプト論文です。

・P157 (HULC++) このモデルの特徴は、全データのうちわずか1%に言語アノテーションを付与するだけで、汎用的な制御器の学習が可能となる点です。

・P172 Voyagerは、Minecraftのようなオープンワールド環境において、自律的に学習し、成長し続けることができる生涯学習エージェントの実現に、重要な一石を投じたフレームワークといえます。そして、このような生涯学習は、今後のロボット研究において最も重要なトピックの１つになるだろうと考えています。

・P232 2024年以降、ロボット基盤モデルでの文脈内学習に成功したと言う報告も出始めています。例えばICRTでは、図6.33のように、DROIDデータセットで事前学習されたTransformerベースの制御方策のモデルを使って、新しいタスクのデモンストレーションをプロンプトとして入力することで、そのタスクへの適応を実現しています。

・P232 RT-Xや、その後続の視覚言語行動（VLA）モデルの研究が示唆していたものの１つは、「VLAモデルの事前学習で多様なロボットで多様なデータを大量に集めれば、（目的のロボットの形態がある程度近ければ）少数のデータで目的のタスクや環境に適応しやすい」ということでした。ロボット基盤モデルで制御したい目的のロボットがヒューマノイドロボットであると考えると、その携帯に近いのは人間そのものです。そのため、今後、Ego4Dデータセットのような、人間がなんらかのタスクを行っている一人称視点のデータが、VLAモデルの学習に重要になるとも考えられます。

・P239 (一般の画像で学習したVLMがロボットで上手くいかないケースの理由) リンゴが人間の手先ではなくロボットの手先で把持されていることが原因です。つまりVQAでは「ロボットがリンゴを掴んでいる状態」を「リンゴが掴めている」とは判断しないと言うことです。（ロボットのデータが学習に少ないのが原因）

・P240 基盤モデルの推論スピードは今後必ず上がっていくと思われるため、基盤モデルのスピードが上がったら何ができるかを常に考えておくと今後も楽しめるかもしれません。

・P242 (RT-Xプロジェクトでは多様なロボットのデータを統一的に扱っていた) 一方で、身体性の異なるデータを一緒くたに扱おうというのは、いささか乱暴な議論にも思えます。この、身体性を基盤モデルに密接に結びつけるべきなのか、それとも身体性に関わる部分は分離して潜在空間だけで繋げるべきなのかについては、議論が尽きないトピックであり、今後も発展していく面白い分野だと思います。

Pocket

Physical AIの幕開け：「基盤モデル×ロボット」で何が起きているのか？

関連

コメントするコメントをキャンセル

関連

コメントする コメントをキャンセル

コメントするコメントをキャンセル