ジョイジョイジョイ

ジョイジョイジョイジョイジョイ

松井・熊谷『転移学習』の感想

講談社サイエンティフィク様より『転移学習』をご恵贈いただきました。一通り読み終えたので感想を書きます。

全 414 ページとかなりの重厚感。しかも決して引き伸ばした跡がなく、むしろ原液のような濃さを感じる中身です。原理に基づいて本質的な事項が解説されており、しっかり読むととても力のつく一冊だと思いました。

転移学習の難しさを直視する

本書の大きな特徴は転移学習の難しさを誤魔化さずに正面から取り扱っている点です。

転移学習とは、元ドメインのデータ  D_s と目標ドメインのデータ  D_t が与えられたときに、目標ドメインでの性能が高いモデルを獲得する技術です。鍵になるのは元ドメインのデータであり、これをうまく活用することで従来の学習よりも「ラクに」良いモデルを得ることを目指します。ここでいうラクとは、必要な目標ドメインデータの数が少なかったり、学習にかかる時間が短いということです。

転移学習は難しい問題です。通常の機械学習からしてきちんと理解するのが難しいのに、元ドメインと目標ドメインという要素が加わって、さらに問題がややこしくなります。通常の学習は学習データと目標ドメインが同一であると仮定しているので、元ドメインデータが空であるという転移学習の特殊ケースです。逆に言えば転移学習は通常の学習の一般化になっています。転移学習は通常より一般的な問題でありながら、通常よりもラクに解くことを目指すという矛盾を抱えていることになります。

転移学習を簡単に解説しようとすると、この矛盾は差し置き、よく分からないがなぜか上手くいったという結論になりがちです。しかしこれでは、チャンピオンデータ以外で試すとなぜか上手くいかなかったという逆の結果にも繋がってしまいます。

この矛盾を解消するためには仮定を置いて、転移学習の一般性を適切に狭めながら、ラクに解くという目標を達成する必要があります。ここでいう仮定とは具体的には、元ドメインと目標ドメインは似ているというような仮定です。しかし適切に仮定を置くのも一筋縄ではいかず、ドメインが似ている・似ていないとはどういうことかという新たな疑問も現れてきます。

本書はこのあたりの矛盾や仮定を誤魔化さずに正面から取り扱っていることが大きな特徴です。どういう仮定を置けば転移学習が原理的に可能と言えるか、ある手法はどのような仮定に基づいているか、あるいは、ある手法はどの仮定を省いているのでうまく行かない可能性があるといえるのか、といったことが詳細に議論されています。これらの仮定に対する詳細さは他に類を見ないほどです。この議論が第 2 章から 3 章という序盤に配置されていることからも、著者らのこだわりを感じました。転移学習の根本的な原理を学ぶにはとても良い本だと思います。

本質に集中する

本書のもう一つの特徴は、まずは問題の本質的な部分を取り出して解説を進めている点です。

具体的に言えば、各問題についてまずは線形モデルなどの単純な場合で解説をするという方針が取られています。

深層学習時代の手法は問題の本質とは関係の無い(が精度の見栄えのためには重要な)ゴテゴテした飾り (bells and whistles) が付いていることが多く、そのような手法を最初から扱うと本質を見失いがちです。上述のように転移学習は問題設定からして複雑なのでなおさらです。最近の論文で転移学習に入門すると、このために本質が見えてくるまでに時間がかかります。まずは線形モデルなどで理解するというのは良い方針だと思いました。

第 6 章の「事前学習モデル」や第 9 章の「メタ学習」など、深層学習時代に大きな発展を遂げたトピックについても、まずは非深層の単純な場合から解説しています。メタ学習は転移学習の中でも特に問題設定が複雑です。私自身、メタ学習については理解が曖昧な箇所がありましたが、本書を読んで見通しが良くなったと感じています。

また、深層手法では理論をつけるのが難しく、よく分からないがなぜか上手くいったという結論になりがちです。線形モデルは理論をつけやすく、少なくとも線形モデルでは理論が保証されていることが分かれば、より複雑なモデルに適用するときの安心感にも繋がります。

勾配エピソード記憶の話

非常に多くの手法が紹介されているのも本書の特徴です。引用文献数は驚異の 369 点。しっかり紹介されている手法だけでも 100 点近いのではないかと思います。

私の好きな研究である勾配エピソード記憶 [Lopez-Paz+ NeurIPS 2017] が第 12 章「継続学習」で取り上げられていたのでここで語りたいと思います。

継続学習とは、順次新しいタスクが与えられる状況で、古いタスクの性能を維持しつつ新しいタスクに適合するという問題設定です。

基本的な戦略は、学習済みのパラメータを大きく動かさないという制約の下で新しいタスクを学習するというものです。これによりこれまでに適合したタスクへの悪影響が避けられます。

一方、勾配エピソード記憶では、古いタスクの性能を測り続け、これらが低下しないという制約の下で新しいタスクに適合します。古いタスクの性能が低下しない限りは大きくパラメータを動かすことも可とします。むしろ、新しいタスクで学習するうちに、古いタスクの性能が自然に向上することすら狙います。新しいタスクの学習で古いタスクの性能が向上することを正の後方転移といいます。

従来の手法は古いタスクにできるだけ影響を与えないようにするという消極的な方針だったのに対して、勾配エピソード記憶は積極的に正の後方転移を狙うというのが大きな発想の転換であり、私の好きなポイントです。

勾配エピソード記憶のアイデアを気に入っていたものの、実際の精度にはあまり関心がありませんでした。本書で紹介されている精度報告では、実際上は勾配エピソード記憶では正の後方転移はあまり起こらないそうです。これを知ったときはショックでした。むしろ、増分分類器表現学習 (iCaRL) [Rebuffi+ CVPR 2017] という別の手法の方が実際上は大きな正の後方転移が得られるそうです。iCaRL の論文をはじめて読んだときには正直あまりパッとしない手法だと思っていたのですが、これを機に見直して改めてじっくり考えてみたいと思います。

お気に入りの手法や気になる手法を見つけられるのも、大量の手法が紹介されている本書ならではです。各々引っかかるポイントは異なるでしょうが、どこかで琴線に触れる手法が見つけられるのではないかと思います。

本書の読み方

本書は辞書として使うのと、ざっと一通り読むのが適していると思いました。

前項で述べたように、本書は非常に多くの手法を紹介しており、それらは多くの研究で基になったり比較手法として頻繁に使用されているものです。転移学習の文献を読む際に前提となる手法を本書で調べるというのは便利な使い方です。

また、私が今回読んだように、ざっと通し読みをするのも、転移学習分野全体を俯瞰するという意味では良い読み方だと思いました。本書は網羅的なので、読み通すだけでも解像度の高い分野の全体像が得られます。その上で、気になった箇所を深堀りすると良いと思います。ページ数が多く密度が高いので全ての行間を埋めて読むのはなかなか大変ですが、全体像をつかむというところをゴールに設定すると読み進めやすくなります。

おわりに

転移学習の下地はあるつもりでしたが、3.2.2 節の不可能性定理をはじめとする転移学習の仮定については深く考えさせられました。深層学習時代以降の手法しか知らなかったところも基礎固めができてよい勉強になりました。原理に基づいて転移学習を適用できるようになりたい人には最適の一冊だと思います。ぜひ!

連絡先: @joisino_ / https://joisino.net