LLMのキモい算術

LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ICLR 2025]。まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロン…

2025-09-29

LLM のアテンションと外挿

LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察…

2025-08-28

面白さ優先分類器

既存の機械学習モデルの多くは予測精度を最大化することを目指しますが、本稿では面白さを優先する分類器を紹介します。目次目次面白さを優先するとは問題設定手法実験結果おわりに面白さを優先するとは例えば、ユーザーのプロフィールから、そのユ…

2025-06-23

人間を騙してサボるAIたち

AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF（言語モデルは RLHF を通じて人間を誤解させることを学ぶ）を…

2025-05-20

アンナ・カレーニナの法則と真理に収束していくモデルたち

幸せな家族はどれもみな同じようにみえるが、不幸な家族にはそれぞれの不幸の形がある。 — 『アンナ・カレーニナ』アンナ・カレーニナの法則 (Anna Karenina principle) とは、成功の状態は一つしかないが、失敗の状態は無数にありうるという、トルストイの…

2025-03-24

言語モデルの物理学

言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学…