2025-01-01から1年間の記事一覧
LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ICLR 2025]。 まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロン…
LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察…
既存の機械学習モデルの多くは予測精度を最大化することを目指しますが、本稿では面白さを優先する分類器を紹介します。 目次 目次 面白さを優先するとは 問題設定 手法 実験結果 おわりに 面白さを優先するとは 例えば、ユーザーのプロフィールから、そのユ…
AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは RLHF を通じて人間を誤解させることを学ぶ)を…
幸せな家族はどれもみな同じようにみえるが、不幸な家族にはそれぞれの不幸の形がある。 — 『アンナ・カレーニナ』 アンナ・カレーニナの法則 (Anna Karenina principle) とは、成功の状態は一つしかないが、失敗の状態は無数にありうるという、トルストイの…
言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学…
私が機械学習を学び始めたとき、訓練データとテストデータは異なるのだから、訓練データ上で損失を下げたとしても、テストデータでの性能が必ずしも保証されるとは限らないのではないかと感じ、理解に苦労しました。 本稿では、かつての自分を含め、統計と機…
正月休みに Twitter(現 X)を眺めていると面白いポストを見かけました。 これまで人類は真理とは単純なものであると考えて、 や のような単純な真理を追いかけてきたわけですが、このようなものは実は真理のうちのごく一部であり、人間には理解できないほど…