ジョイジョイジョイ

ジョイジョイジョイジョイジョイ

アンナ・カレーニナの法則と真理に収束していくモデルたち

幸せな家族はどれもみな同じようにみえるが、不幸な家族にはそれぞれの不幸の形がある。

— 『アンナ・カレーニナ』

アンナ・カレーニナの法則 (Anna Karenina principle) とは、成功の状態は一つしかないが、失敗の状態は無数にありうるという、トルストイの小説『アンナ・カレーニナ』の有名な冒頭に由来する法則です。機械学習においては、ヤミニ・バンサルらの研究 [Bansal+ NeurIPS 2021] をはじめとする、モデルの表現(埋め込み)についての以下の観察が知られています。

機械学習におけるアンナ・カレーニナの法則:性能の良いモデルはどれもみな同じような表現をもっているが、性能の悪いモデルにはそれぞれ性能の悪い表現がある。

機械学習では、「アーキテクチャや訓練方法が異なっていても、良いモデルは自然と同じようになる」という上の句に相当する現象に焦点が当てられることが多いです。

この法則は異なるモダリティにまで拡張できます。性能の良い言語モデルの「赤」「青」といった単語の表現は、性能の良い視覚モデルの赤色や青色の表現、ひいては人間が知覚する赤や青の感覚に似ているのです。

テキストのみで訓練された BERT の埋め込みは、人間の目の知覚と整合性がある [Abdou+ CoNLL 2021]

プラトン的表現仮説 (Platonic Representation Hypothesis) [Huh+ ICML 2024] はこの理由を説明するものです。

プラトン的表現仮説:テキストや画像といったデータは根底にある「この世の真理」の表出である。テキスト埋め込みモデルも、画像埋め込みモデルも、性能が向上するにしたがって、「この世の真理」の統計モデルに収束する。

「この世の真理」を表現することに成功したモデルは性能が高くなり、逆に性能を高めるためには「この世の真理」に近づく必要がある、ゆえに性能の良いモデルの表現はどれも「この世の真理」の写し鏡のようになっている、ということです。

本稿では、なぜこのようなことが起こるのか、そしてそのことの実用上の意義について詳しく見ていきます。

目次

表現の類似度の測り方

モデルの表現が似ているといっても、ぴったり同じ値を持つわけではありません。同じ意味を持っていても、起点が異なれば異なる値になることもあります。何をもって本質的に同じと見なすかを考えることが重要です。

同じモデル・同じデータ・同じ手法で訓練しても、異なる埋め込みを持つことがある(左・中央)。これらの埋め込みは回転させると一致するので、本質的に同じとみなせる(右) [Roeder+ ICML 2021]

人気のある一つの方法がモデルの縫合ほうごう (stitching) [Lenc+ CVPR 2015] です。訓練済みモデル A の 1 層目 → モデル A の 2 層目 → ... → モデル A の k 層目 → 単純な縫合層(線形層など)→ 訓練済みモデル B の l 層目 → モデル B の l +1 層目 → ... → モデル B の最終層という順にデータを処理します。モデル A とモデル B の部分は凍結し、縫合層だけを訓練して高い性能を回復できるならば、モデル A とモデル B の表現に整合性があるとみなします。モデル A ・モデル B は同じアーキテクチャでもいいですし、モダリティの異なる独立に訓練された全く違うモデルでも構いません。

モデル縫合の概念図 [Merullo+ ICLR 2023]

ヤミニ・バンサルら [Bansal+ NeurIPS 2021] は、幅広い視覚モデルについて調査し、良いモデルどうしはほとんど性能を犠牲にせずに互いに縫合できることを確認しました。下図では、横軸はモデル A の最初の割合 x の層とモデル B の最後の割合 (1-x) の層を縫合することを表し、縦軸はモデル A と比べてどのくらい性能が低下したかを表しています。左図は同じアーキテクチャの異なるランダムシードで訓練したモデルどうしを縫合しており、右図は教師あり学習と自己教師あり学習という異なる方法で訓練したモデルどうしを縫合しています。いずれも、どの層で縫合しても性能低下は小さく、うまく縫合できることを示しています。灰色の点線は訓練済み ResNet18 をランダム初期化モデルと縫合した対照実験で、ランダムなモデルとは縫合できないことを示しています。

異なるランダムシードや異なる方法で訓練されたモデルどうしもほとんど性能を低下せずに縫合できる [Bansal+ NeurIPS 2021]

異なるモダリティのモデルも縫合できることが様々な研究で確認されています。ジャック・メルローらの研究 [Merullo+ ICLR 2023] では、視覚モデルの埋め込みを言語モデルに縫合できることを確認しています。LLaVA [Liu+ NeurIPS 2023] は凍結した視覚モデルを凍結した言語モデルに縫合し、さまざまな視覚言語タスクで非常に高い性能を収めています。NExT-GPT: Any-to-Any Multimodal LLM [Wu+ ICML 2024](下図)はテキスト・画像・音声・動画のモデルを縫合させています。

NExT-GPT は様々なモダリティを縫合する [Wu+ ICML 2024]

これらの試みはいずれもうまくいっており、ランダムシード・アーキテクチャ・訓練方法・モダリティなどが異なっていても、良いモデルどうしは縫合互換性のある、互いに似た表現を用いていることが示唆されます。

このほか、もう少し緩い基準としては、近傍の一致度が用いられます。ペアデータ  (x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n) を用意します。 x_i は画像、 y_i x_i のキャプションテキストなどです。 x_1, \ldots, x_n をそれぞれモデル A に入れて埋め込みを得、 y_1, \ldots, y_n をそれぞれモデル B に入れて埋め込みを得ます。モデル A の埋め込みで  x_i に近い上位 K 件のインデックス集合とモデル B の埋め込みで  y_i に近い上位 K 件のインデックス集合の一致度をモデル A とモデル B の表現の類似度とします。モダリティが同じ場合には  x_i = y_i とそれぞれのモデルで同じデータを用い、視覚モデルと言語モデルを比較するときなどは、上述のように一方を画像、もう一方を関連するテキストというように設定します。それぞれのモデルが近い・遠いと考えるデータの基準が似ていればこの類似度が高くなります。プラトン的表現仮説 [Huh+ ICML 2024] の論文ではこの基準が採用されています。

性能の高いモデルの表現どうしは似ているが、性能の悪いモデルの表現どうしは似ていない [Huh+ ICML 2024]

上図はこの基準を用いた実験結果です。ResNet と ViT というアーキテクチャの選択、教師あり学習と自己教師あり学習という訓練方法の選択、ImageNet と Place365 などデータセットの選択などが異なる 78 個の視覚モデルを用意し、VTAB というベンチマークで性能を評価しました。左図のビンは左ほど性能が低く、右ほど性能が高いことを表します。縦軸はモデルの表現どうしの類似度です。VTAB 性能が低いモデルたちの表現は互いに類似しておらず、VTAB 性能が高いモデルたちの表現は互いに類似していることが分かります。右図は表現どうしの距離が保たれるようにモデルたちを 2 次元に埋め込んだ結果です。一つの点が一つのモデルを表し、青いほど性能が高いことを示しています。性能がとても高いモデルたちは左下に凝集しており、性能が悪いモデルたちは上の方に広く分散しています。これらはまさに「性能の良いモデルはどれもみな同じような表現をもっているが、性能の悪いモデルにはそれぞれ性能の悪い表現がある」というアンナ・カレーニナの法則を裏付けています。

言語モデルの性能が高まるにつれて、表現が視覚モデルに似ていく [Huh+ ICML 2024]

異なるモダリティでも同様の現象が観察されています。上図の横軸は言語モデルの next token prediction の性能であり、右に行くほど言語モデルの性能が高いことを表します。縦軸は視覚モデルとの表現の類似度を表し、上に行くほど視覚モデルに表現が似ていることを表します。言語モデルの性能が高まるにつれて、表現が視覚モデルに似ていく傾向が幅広い設定で現れています。この傾向の行きつく先が何であるかはこの実験だけからは分かりませんが、言語モデルも視覚モデルも何か共通の表現に向かって進化しているのは確かなようであり、その行きつく先がある種の「この世の真理」であると考えることもできそうです。

反例は構築できるが

この法則は絶対的なものではありません。やろうと思えば反例を簡単に構築できます。例えば、訓練済み ResNet の各層の最後に、複雑にかき混ぜるような変換  f を入れ、各層の最初にその逆変換  f^{-1} を入れると、もとのモデルと同じく高性能ながら、整合性のないめちゃくちゃな表現をもつモデルが作れます。

しかし、「普通に」訓練をすると、そういうモデルは得られず、なぜかいつも表現に整合性のあるモデルたちが得られます。

たとえば、1 + 1 = 2 を計算するとき、理論上は 1 + 3459749762 - 3459749762 + 1 = 2 と計算しても問題ないはずですが、そういう手続きを踏むモデルは普通にしていれば得られず、そのように教えなくとも、いつも 1 + 1 = 2 というシンプルで合理的な手続きを踏むように進化します。

これはなぜでしょうか。

以下では暗黙的正則化と反変原理を用いてこの理由を見ていきます。

暗黙的正則化

暗黙的正則化 (implicit regularization) とは、正則化関数や重み減衰などの技法を用いて明示的な正則化を施さなくても、訓練アルゴリズムの特性により自動的に単純なパラメータが得られることです。

直観的には、訓練アルゴリズムは単純な仮説から順番に探索を行い、損失が小さくなった時点で停止するため、データに適合する仮説のうち最も単純なものを選ぶ傾向があると考えられます。データにノイズがあり、厳密には単純な仮説でデータを表現できない場合でも、まずは単純な仮説でおおよそ説明できるようになり、そこで獲得した大域的な構造は残したまま、局所的に複雑な仮説を学習していくために、長時間訓練しても大域的に見れば単純な仮説が獲得されると考えられます。

問題に様々な解法があるとしましょう。シンプルな解法もあれば、回りくどい解法もあります。いずれの解法でも、精度よく問題を解くことができますが、複雑さが異なります。

低い損失を達成するニューラルネットワークのパラメータはいずれかの解法に対応するとします。

パラメータのノルムが小さいと表現できる関数は限られ、ノルムが大きいほど、起伏に富んだ複雑な関数を表現できます。ゆえに基本的にはノルムが小さいほどシンプルな解法に対応します(正確に言えば、複雑な手続きは小さなノルムで表現できませんが、単純な手続きをあえて大きなノルムで表現することはできます。なので、「ノルムが小さいならば単純な手続きを表す」はある意味で保証されますが、「ノルムが大きいならば複雑な手続きを表す」は必ずしも保証されません。以下の議論では「ノルムが小さいならば単純な手続きを表す」だけ成り立てば十分です。)

小さいノルムからニューラルネットワークを訓練すると、訓練が進むにつれてノルムが大きくなっていきます。訓練に従い損失は低下していき、損失がそれより下がらなくなるとそこで訓練が止まります。

訓練の過程ではじめて出会った良い解で止まることが重要です。もしそれより先に進むことがあったら(よりノルムの大きい・複雑な)別の良い解にたどり着くかもしれませんが、普通に勾配法で訓練をするとそうはならず、最初に出会う良い解の付近で止まります。これが、普通に訓練すると自動的に単純なパラメータが得られる仕組みです。

ノルムの暗黙的正則化:勾配法で訓練すると、数ある良い解のうち、最初に到達した解で停止し、それはノルムが小さく単純な解であることが多い。佐藤『深層ニューラルネットワークの高速化

以上は簡単のためノルムを複雑さの指標として用いましたが、パラメータのランク [Arora+ NeurIPS 2019] や平坦性 [Cohen+ ICLR 2021] や決定境界マージンの広さ [Soudry+ JMLR 2018] など、様々な指標で同様の現象が確認・証明されています。

暗黙的カリキュラム

暗黙的正則化と密接に関係があるのが暗黙的カリキュラム (implicit curricula) [Wu+ ICLR 2021] です。モデルを訓練するとき、簡単な例から順番に見せるカリキュラム学習というテクニックがあります。暗黙的カリキュラムとは、そのような明示的なカリキュラムを行わず、ランダムな順序で訓練例を見せたとしても、モデルは自然と簡単な例から順番に学習していくことを指します。

学習しやすい例と学習しづらい例があることは自明ではありません。あるモデルがデータ 1 → 2 → 3 → 4 → 5 → 6 → 7 → 8 → 9 → 10 の順番で正解できるようになったとしても、別のモデルを訓練したときにはデータ 10 → 9 → 8 → 7 → 6 → 5 → 4 → 3 → 2 → 1 の順で正解できるようになるかもしれませんし、データ 7 → 1 → 5 → 4 → 2 → 9 → 10 → 3 → 6 → 8 とまったく別な順で正解できるようになるかもしれません。ですが直観的には、オブジェクト全体がはっきり写っている画像は学習しやすく、CAPTCHA で出てくる信号機のような人間が見てもよく分からない画像は学習しづらいとは考えられます。

「例の難しさ」としては様々な指標が考えられますが、「訓練済みモデルに入力した時の損失の大きさ」や「その訓練例を除いて訓練したモデルがその例を正解する確率」などで測ったとき、いずれの観点でも簡単なものほど、訓練の早い段階でモデルが正解できるようになることが観察されています [Wu+ ICLR 2021]。

特別な訓練をしなくても、モデルは示し合わせたように自然と同じ順番で学習していく [Wu+ ICLR 2021]

上図は、画像分類モデルが CIFAR-10 の画像を分類できるようになる順番を表しています。画像の一列が一つのモデルの一回の訓練を表し、画像の一行が一枚の画像を表しています。可視化のために画像は「簡単な」ものほど下に配置されていますが、モデルは簡単さを知らず、実験上はどの画像も平等に扱います。色が紺色ほど先に正答できるようになり、黄色ほど後に正答できるようになったことを表します。モデルは全結合 (FC), VGG11, VGG16, ResNet18, ResNet50, WideResNet28-10, WideResNet48-10, DenseNet121, EfficientNet B0, VGG11-BN, VGG19-BN など広範なものが使用されています。(弱い)全結合モデルだけ傾向がやや離れていますが、他の(強力な)モデルはどれも同じように「簡単な」画像から順番に正答できるようになっていることが見て取れます。

明示的なカリキュラムを行わなくても自然とカリキュラム的に学習が進むのであれば、カリキュラム学習はそもそも必要ないように思えますが、必要な場合と必要のない場合があります。When Do Curricula Work? 論文 [Wu+ ICLR 2021] はこのあたりをしっかり調査しています。LLM の訓練のように、広範かつ膨大なデータを 1 エポックしか回さない場合には、訓練の初期に難しいデータを入力するとせっかくの難しいデータをその時点では学習できず、そのデータを活用する機会を失うので、カリキュラムを組んで見せる順番を工夫することが重要です。一方、画像分類タスクのように、データセットを数十エポック回す場合には 1 エポック目で学習がうまくいかなくても、2 エポック目、3 エポック目に十分性能が増えた時点でその例を学習できるので、わざわざカリキュラムを組む意味はほとんど無いことが報告されています。

暗黙的カリキュラムの観察は広範な設定で確認されており、AlexNet と ResNet などアーキテクチャが違っている場合や、テキスト分類モデルなどでも観察されています [Hacohen+ ICML 2020]。

AlexNet と ResNet の場合には、最終的には精度が異なり、ResNet の方がより多くの例を分類できるようになる訳ですが、そのような場合にも、ResNet はまず AlexNet が分類できる例を全て分類できるようになり、そのあとで AlexNet が分類できなかったさらなる例を分類できるようになるという風に学習が進みます。

これらの観察からも、モデルの訓練ではまずは単純な仮説でおおよそ説明できるようになり、徐々に細々した複雑な仮説を学習していくというプロセスを取ることが示唆されます。

反変原理

反変原理 (Contravariance Principle) [Cao+ Cognitive Systems Research 2024] とは、困難な目標が強い制約を与えることで、ありうるモデルの構造の多様性が減少するという原理です。課題の難易度(制約の強さ)が上がると満たすべき解の自由度が下がるという逆方向の力が働くので反変原理と呼ばれます。

基盤モデルは様々なタスクを同時に解けるようになることが求められます。それぞれのタスクを解く方法は多数あっても、それらのいくつかはそのタスクに特化したものであり、どのタスクにも適合できる方法を探そうとすると自然と候補は絞られてきます。

基盤モデルは多種類のタスクを解けるようになる必要があるので、ありうる表現のパターンは限られてくる [Huh+ ICML 2024]

喩えるならば、段ボールに大量の荷物を詰めるとき、一部の荷物しか詰めなくてよければ色んな詰め方があり、全部詰め込めなかったという失敗の仕方は無数にありますが、全ての荷物をキッチリ詰め込むとなると、流石にこれはここに置くしかないというような制約が生まれ、誰が詰めても自然と似たような詰め方になるということに似ています。また、この喩えをやや強引に続けると、こういう詰め込みを考えるとき、大きいものから詰め込むことを考えるかと思いますが、これは暗黙的カリキュラムに対応していると言えるでしょう。壺に岩と小石と砂を入れることを考えてもいいかもしれません。最初に砂を入れてしまうと後で岩を入れられませんが、岩→小石→砂の順で入れるとうまく入れられます。モデルについても、容量が限られているなかで、知識や推論方法をできるだけ詰め込まなければなりません。ある程度うまくいった詰め込み方 = 訓練方法では、自然と似たような詰め方になるということです。

実用上の意義

アンナ・カレーニナの法則とプラトン的表現仮説は概念的に面白いだけでなく、多くの実用上の示唆を含みます。以下に代表的なものを紹介します。

マルチモーダルトレーニングの重要性

プラトン的表現仮説はマルチモーダルトレーニングの意義を明確にします。言語モデルも、視覚モデルも、同じ「プラトン的表現」を目指しているのであれば、両方のデータを活用することで、より効率的に「プラトン的表現」に近づけると考えられます。手元に、N 枚の画像と M 文のテキストがあったとき、最高の視覚モデルを訓練したければ、N 枚の画像で訓練するだけでなく、M 文のテキストも共に用いることで、「プラトン的表現」により近づき、よりよい性能が得られると考えられます [Huh+ ICML 2024]。

人間でも、先天性の全盲の子どもが後に目が見えるようになったとき、対応関係を急速に学習できたことが報告されているそうです [Held+ Nature Neuroscience 2011]。

機械学習モデルも同様に、一つのモダリティで学習しておくと別のモダリティの学習の助けになる可能性があります。

モデルマージやコンポーネントの流用

異なるモデルどうしのマージができたり、別のモデルのために訓練した LoRA を他のモデルに適用したらなぜかうまくいったというような現象も表現の整合性である程度説明できます。

本稿の前半で示した LLaVA [Liu+ NeurIPS 2023] や NExT-GPT [Wu+ ICML 2024] のような、縫合によるマルチモーダルモデルの作成はこの現象を直接活用しています。

プラトン的表現仮説が正しいならば、今後、言語モデルや視覚モデルの性能が上がるにつれて、どんどん表現は整合していき、このような縫合によってマルチモーダルモデルを作成することがますます簡単かつ効果的になっていくと考えられます。

アンサンブルがそこまでうまくいかない理由

強力なモデルどうしのアンサンブルが思ったよりうまくいかない理由もアンナ・カレーニナの法則で説明ができます。

弱いモデルどうしはそれぞれ違った欠点があるので、それらを束ねるとそれぞれの欠点を補い合い、個々のモデルよりもはるかに強力なモデルを作ることができます。

一方、強力なモデルどうしは既に似ているので、それらを束ねたとしても似たようなものしか得られず、弱いモデルどうしを束ねたときほどアンサンブルの効果が出ないということです。

ただし、「プラトン的表現」に異なるアプローチで近づいているならば、その中点が「プラトン的表現」により近いという意味で、アンサンブルの効果も出るかもしれません。

限界

きみはまた人間の行動にはいつも目標があり、愛と家庭生活が常にひとつであることを願うだろうが、そうばかりではないのさ。人生がこんなにも多様で、魅力的で、美しいのも、すべて光と影の両方があるからなんだよ

— 『アンナ・カレーニナ』

アンナ・カレーニナの法則とプラトン的表現仮説は様々な設定で確認されており、非常に強力な概念ではあるものの、完璧ではありません。

モダリティが違えば表せない表現があるはずです。

素数が無限にあることの背理法による証明はテキストで記述するのは簡単ですが、絵でこの情報を伝えるのは難しいでしょう。証明のテキストを言語モデルでエンコードして、画像生成モデルでデコードしてもうまくいかない可能性が高いです。

逆に、ホラー映画のジャンプスケアのカットを見たときと同じ印象をテキストから得るのは難しいでしょう。ジャンプスケアのカットを言語モデルでデコードすると「白塗りの怖い顔の人が大画面に映し出されている」というキャプションが得られるかもしれませんが、それを読んでも全然びっくりしません。テキストで表現すると何かしらの要素が失われていそうです。

それぞれのモデルが「プラトン的表現」を目指して進化するかもしれませんが、どこかに限界はあり、「プラトン的表現」そのものにまでは到達できない可能性は高そうです。そうすると、結局はモダリティごとの個性は残り、ある程度の差異や多様性は残ることになりそうです。

最後まで残るモダリティごとの個性とは何なのか、そしてモダリティを組み合わせることで何が生まれるのかを深く考えてみるのも面白いと思います。

おわりに

理論的・哲学的に面白いだけでなく、実用上の意義も大きいところが私は好きです。

ChatGPT が音声を受け取れるようになったり、画像を生成できるようになったり、複数モダリティの融合技術が発達しています。今後、モダリティの整合性の問題はますます重要になってくると思います。

皆さんもこのトピックについて考えていただければ幸いです。

著者情報

この記事がためになった・面白かったと思った方は SNS などで感想いただけると嬉しいです。

新着記事やスライドは @joisino_ (Twitter) にて発信しています。ぜひフォローしてくださいね。

佐藤 竜馬

佐藤 竜馬(さとう りょうま)

京都大学情報学研究科博士課程修了。博士(情報学)。現在、国立情報学研究所助教。著書に『深層ニューラルネットワークの高速化』『グラフニューラルネットワーク』『最適輸送の理論とアルゴリズム』がある。

プロフィールを見る