教養学部報
第659号
大規模言語モデルも相転移をするらしい
福島孝治
目覚ましい発展を遂げている生成AIは我々の日常にも浸透しており、特に、ChatGPTなどの「大規模言語モデル」は研究や教育にも大きな影響を与えている。本学でも生成AIとの向き合い方の見解が示されるほどである。私もその向き合い方には注意しつつ、「明日の統計物理学の講義の献立を考えて」などと頼んでみると、瞬時に回答があり、その案にダメ出しをすると、機嫌も取るような返事がくる。最終的には元の自分の講義ノートの出来栄えに優越感を味わいながら、講義に向かう日常を送っている。しかし、すごい「もの」ができたことは事実であり、物理学者としては、何が起きているのか理解してみたいという衝動に駆られる。
さて、目の前に正体不明の液体のものがあり、その特性を知りたいとする。化学者ならば成分分析を行い、構成要素を調べるだろう。一方、物理学者は、音波や光を当てて応答を計測したり、もっと単純に温度を変えて挙動を観察したりする。多くの液体は温度を下げると、液体から固体に「ある特別な温度」を境に入れ替わる。その温度でのみ液体と固体が同時に存在できるが、少しでも温度が高いと液体に、低いと固体だけに明確に区別される。この冷凍庫の中でも見られる現象は、物理学では「相転移」と呼ばれ、多くの物質に共通する普遍的な現象である。一方、相転移する温度は物質ごとに異なり、物質の個性を知る一つの手がかりとなる。また、相転移現象は、一定の条件下であれば何度繰り返しても同じように観察される。同じ実験を繰り返しできることは研究を進める上で極めて重要な要素である。
現在の大規模言語モデルは数百億ものパラメータを持ち、それらを解析することは容易ではない。まずは、大規模言語モデルを繰り返し実験が可能な「もの」と見て、その挙動を観察することから始めるのは一つの自然な考えである。例えば、大規模言語モデルには「温度」という調整可能なパラメータがある。マニュアルによれば、温度を高くすると出力はランダムになり、低くすると決定論的になり、「ほどほど」に設定することが推奨されている。そこで、温度を「やや」ではなく大きく変えて実験してみる。共通の入力テキストに対して温度を高くして文章を生成すると、記号や数字も含む無意味なホゲホゲ語が出力される。一方、温度を低くすると、文法的には正しいが同じフレーズの繰り返しで無意味な文章が生成される。確かに、温度は「ほどほど」に設定する必要がありそうである。同時に、これらの生成された文章は液体と固体のようにも思えるし、その間は明確な区別は存在するのか、すなわち相転移は存在するのかという疑問もわく。
それに対する我々の研究の答えは肯定的である。ある温度を境に、単語列の相関が無限に続くことが確認され、相転移が起きることが示唆されたのである。少し詳しく説明すると、大規模言語モデルであるGPT2で生成された大量の文章を十七種類の品詞にタグ付けし、その品詞列の相関関係を詳しく調べた。その結果、特定の温度において、単語間の相関がその距離に対してべき関数的に減衰する状態が現れることがわかった。これは物理学では臨界状態と呼ばれ、相関が失われる典型的な距離(相関距離)が無限大とみなせる特別な状態である。高温では単語間の相関はある有限の距離で失われるため、その前後の関係性はほぼなくなると考えられる。一方、温度を下げると、その相関距離は無限大になり、相関が無限に続くようになる。ここから、高温では相関が途切れ、低温では無限に続くという二つの状態が特定の温度で相転移する描像が浮かび上がる。
ただし、この相転移は液体と固体の相転移とは異なり、磁石の相転移に近い。液体と固体の相転移では、通常は相転移温度で相関距離は無限大にはならず、結果として、液体と固体が相転移温度で共存する。しかし、磁石の場合、相転移温度では非常にゆらぎが大きい「臨界状態」が生じ、相関距離が無限大となる。GPT2の実験で見出したことは、この臨界状態を伴う相転移に似ている。
さらに、この臨界状態にある文章が、自然言語として最も「自然らしい」こともわかってきた。GPT2で生成された文章の自然らしさをある基準で測定すると、相転移温度近傍で最大になる。また、自然言語研究において、複数の自然言語に同様のべき関数の相関の存在が示唆されており、相転移温度におけるGPT2もその仲間に加わることが今回の研究で明らかになった。しかも、大規模言語モデルにおける自然言語らしさは、勝手な温度ではなく相転移に関連して出現することがわかった。この臨界状態を伴う相転移の存在は、GPT2以外にも、日本語GPT2や他の言語モデルでも共通であることが確認でき、普遍的な現象である可能性が高い。
このような臨界状態の存在は、「ほどほど」に温度を変えても意味のある文章が生成できるという事実と整合している。無限大の長さまで意味ある文章を生成させるには、相転移温度にピッタリと合わせる必要があるが、有限の長さでよければ相転移温度近傍に設定すれば十分である。現時点では、なぜ大規模言語モデルで磁石型の相転移が起こるのかは明らかでなく、低温での文章構造も単純な結晶のように完全に規則的に繰り返されるだけではなく、その複雑な構造はまだ十分には理解されていない。
我々の研究は、「鉄もニッケルも温度を下げると磁石に相転移するらしい」というレベルの理解に留まっている。物理学では、熱力学のようなマクロな視点から普遍的な理解を導き、それをよりミクロな視点へと統計力学を通じて発展させてきた。大規模言語モデルの登場により、このモデルを実験場として捉え、マクロな現象から言語の理解を目指す研究も十分に可能であると感じている。この研究は言語に関心のある中石海さん(当研究室博士課程三年生)と統計物理学の研究者である西川宜彦さん(北里大学)との共同研究であり、ある意味では駒場らしい研究と言えよう。
(相関基礎科学/先進科学)
無断での転載、転用、複写を禁じます。