ジョイジョイジョイ

ジョイジョイジョイジョイジョイ

2025 まとめ

2025 年も色々やりましたので活動を振り返ります。 目次 目次 研究 Solving the Cold Start Problem on One's Own as an End User via Preference Transfer(エンドユーザー自身が嗜好転移によりコールドスタート問題を自力で解決する) Influential Bandits…

訓練データ1個だけでLLMの推論性能を倍にする

推論能力を高めるためには、LLM の事後訓練で使う訓練データは 1 つで十分かもしれません。本稿では訓練データを 1 つだけ使った強化学習についての研究 Reinforcement Learning for Reasoning in Large Language Models with One Training Example(単一の…

LLMのキモい算術

LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ ICLR 2025]。 まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロン…

LLM のアテンションと外挿

LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察…

面白さ優先分類器

既存の機械学習モデルの多くは予測精度を最大化することを目指しますが、本稿では面白さを優先する分類器を紹介します。 目次 目次 面白さを優先するとは 問題設定 手法 実験結果 おわりに 面白さを優先するとは 例えば、ユーザーのプロフィールから、そのユ…

人間を騙してサボるAIたち

AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは RLHF を通じて人間を誤解させることを学ぶ)を…

アンナ・カレーニナの法則と真理に収束していくモデルたち

幸せな家族はどれもみな同じようにみえるが、不幸な家族にはそれぞれの不幸の形がある。 — 『アンナ・カレーニナ』 アンナ・カレーニナの法則 (Anna Karenina principle) とは、成功の状態は一つしかないが、失敗の状態は無数にありうるという、トルストイの…