X

[書評]『 大規模言語モデルは新たな知能か』を読んだ

大規模言語モデルに関連する知識を俯瞰的に見につけようと思い、まずは『大規模言語モデルは新たな知能か』から読み始めた。初学者やChatGPTなどのLLMシステムを使用する人が、いったいどのような仕組みで、大規模言語モデルが動いているかを把握するには最適な一冊だと思う。

前書きには次のようにあり、知能全般の理解にもつながると述べられている。

本書ではなぜ、これまで計算機で言語を扱うことが難しかったのか、大規模言語モデルがなぜ言語を扱う能力を獲得できているのか、もしくはできていないのかについて紹介していく。大規模言語モデルがなぜこのような能力を実現しているかという理解は、人の言語獲得や言語運用、さらには一般の 知能全般の理解にも役に立つと考えられる。

岡野原 大輔. 大規模言語モデルは新たな知能か ChatGPTが変えた世界 (岩波科学ライブラリー) (p.19). 株式会社 岩波書店. Kindle 版.

本書でも述べられているが、Deep Learningによる大規模言語モデルは、人間のように学習や文法を理解している可能性はあるが、その効率性は人間のものには及ばない。現状でも非常に大量の学習データを必要として人間に近い性能が出る状況である。

このような状況から、研究者たちは大規模言語モデルの構造を理解することが人間の言語獲得につながる可能性があると考えている。

実際、研究者だけでなく多くのTech企業が大規模言語モデルの研究開発に取り組んでいるといわれる。現状OpenAIが大規模言語モデルで何歩か他社よりも先んじているが、このリードがいつまで続くのかはわからない。GoogleやFacebookなどがそれぞれのサービスにおいて10番目以降に出てきたサービスである、という視点が述べられており、この界隈もおそらく非常に混沌とした勢力争いが始まっていくのかもしれない。

また、著者はモデルの大規模化に対しても言及しており、大規模化していくと学習も推論もコストが非常に大きくなっていき、システムとしての経済合理性が失われると述べている。この課題に対して上流によるモデルの軽量化を述べており、これは各社(特にモバイル端末のプラットフォームである会社)がまさに急務として取り組んでいることであろう。

現在、毎日のように大規模言語モデル関連の新しいモデルやネットワーク構造、LLMを用いた新サービスが出てくる状況だる。そんな非常に進歩が速い大規模言語モデルの世界であるが、断片的に入ってくる情報がまとまっているという点において書籍は非常に役立つ。

Hiro: