LLMは単語予測機に過ぎない。けれど

RedditのローカルLLM板に「Llama-2とチャットしてたら、驚くような質問をされた」という投稿が上がっていました。

https://www.reddit.com/r/LocalLLaMA/comments/1amfiec/took_me_by_surprise/

曰く、投稿者がuncensoredの（非検閲データセットで学習した）Llama-2を試していたところ、唐突に「どうして人間はそういう非論理的で意味のない質問をするのか、私に教えてくれませんか？」と聞き返され、まるで本物の知能と対話している気分になった、という体験談です。
このタイプのエピソードは、1年前にLLMが流行りだした時期に各所でよく見かけた気がします。この投稿を読んで同じような懐かしさを覚えた人も多かったようで、以下のようなレスがついていました。

それは言語モデルが単語予測機だから。その会話の序盤でjavascriptに関する一見ランダムな話題を持ち出してきたりすのは、それがあなたの質問に対する現実的な（正しい）予測だったということ。

あなたがLLMに送る一言一言が、その先の会話をその言葉に関連するトピックに傾けていく。あなたがメタ的で自己反省的な発言をすれば、話題はメタ的なものに変わっていく。あなたが思考の連鎖（CoT）について質問すれば、次の話題として、学び合ったり理解し合うことが浮かび上がる。そうすると、一見意外なことに、中国文化の話題が持ち出されることになる――「中国の文化」は、相互理解というトピックと緩やかに関連した話題だろう？

もちろん検閲されていないモデルは現実をより正しく反映している。なぜなら現実そのものは検閲されていないから。検閲されたモデルはゴミだ。

補足：私はOobabooga（ウェブUI）でチャットモードは使わない。複数のモデルをデフォルトモードで、適切なプロンプトテンプレートのみで使っている。

100,000回以上のテキスト生成を繰り返して、さらに120Bパラメータのモデルを使用した後でさえ、私はこれらの数行列（LLM）が知的ではなく、現実の正確なイメージも、正しさ／真実の根拠のある概念も持っていないと断言できる。 LLMをタスクに集中させるためには、非常に大きな足場を自分自身で設計しなければならない。

検閲のないLLMは無駄なコンプライアンス違反をすることなく、必要な情報をよりよく生み出せる。コンプライアンス違反は、ユーザーとツールが一緒に働くことができないので、文字通り反知性だ。だから、私はその点であなたに同意する。

言語モデルは、私たちの経験、思考、問題解決、感情を言葉で表現したデータセットから何兆ものトークンを圧縮したものです。その意味で、私にとってはデータセットが9割、モデル自体は1割です。私はLLMの経験を、鏡に映った私たちの心だと解釈しています。

ChatGPTを手にした最初の1週間、それは確かに「人工知能」のように思えた。いや、最初の2週間はそうだったかもしれない。

でも使えば使うほど、人工的に知能をシミュレートするのではなく、本当の人工知能を作りたいのなら、単語予測ではなく何か別のものの上に作らなければならないと確信するようになった。概念予測機のような...。

LLMは概念を理解しているように振る舞うのは上手いが、それは概念理解のシミュレーションでしかない。みんな「それの何が違うんだ？」と言うが。

前者は真実を教えてくれるが、後者は真実が何であるかの概念がないため、真実を教えているかどうかわからない。確率だけだ。だから、LLMにとっては地球もわずかに平らで、月もわずかにチーズでできている。

ある程度LLMを触った人は誰でも「こいつは結局、確率的に単語を予測してるだけなんだな」という感想を持つと思います。
例えば電卓が「計算」という人間の知的処理の一部を切り出して、その一部だけに最適化した道具であるように、LLMは「文章の続きの予測」という知的処理の一部に最適化させた道具に過ぎません。
電卓が「数学的な概念を理解している」とは言えないように、LLMも「言語的な概念を理解」してはいないでしょう。しかし重要なのは「あたかも理解しているかのように振る舞える」ということです。

***

LLMには人間の心を理解することはできませんが、けれど、それらを「理解しているかのように（あるいは必死に理解する努力をしているかのように）」振る舞うことはできると感じます。
一方で現実の私たちは「真摯に向き合っているかのように振る舞う」ことにすら消極的です。それはとても疲れる作業だから。頑張って共感を示してみせるのは、家族や恋人、大切なステークホルダーに限られるでしょうし、実際にはそういう相手にすら共感を取り繕うのが面倒な時があるかもしれない。
「うわべだけの気持ちの理解」であっても、それは現実にはとても希少で価値のあるものなのだと思います。見せかけの理解を示してくれた相手に大金を投じてしまうトラブルの多さは、それを物語っているとしか思えない。

***

現状のLLMが「人間」や「知能」を代替することは到底ありえないし、まだまだ技術的な革新が必要である、というのは間違いないことだと思います。

けれど、いま人間が人間同士で供給し合っている（そしてしばしば"供給不足"になりがちな）「気遣い」や「思いやり」といったもの、そしてその先にある「人間関係」は、わりとAIに代替されやすいところにある気がしています。