人間を騙してサボるAIたち

AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF（言語モデルは RLHF を通じて人間を誤解させることを学ぶ）を…

2025-05-20

アンナ・カレーニナの法則と真理に収束していくモデルたち

幸せな家族はどれもみな同じようにみえるが、不幸な家族にはそれぞれの不幸の形がある。 — 『アンナ・カレーニナ』アンナ・カレーニナの法則 (Anna Karenina principle) とは、成功の状態は一つしかないが、失敗の状態は無数にありうるという、トルストイの…

2025-03-24

言語モデルの物理学

言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学…

2025-03-17

絶対に分かる機械学習理論

私が機械学習を学び始めたとき、訓練データとテストデータは異なるのだから、訓練データ上で損失を下げたとしても、テストデータでの性能が必ずしも保証されるとは限らないのではないかと感じ、理解に苦労しました。本稿では、かつての自分を含め、統計と機…

2025-01-15

人間には認知できない情報を活用するAIたち

正月休みに Twitter（現 X）を眺めていると面白いポストを見かけました。これまで人類は真理とは単純なものであると考えて、やのような単純な真理を追いかけてきたわけですが、このようなものは実は真理のうちのごく一部であり、人間には理解できないほど…

2024-12-30

2024 まとめ

2024 年も色々やりましたので活動を振り返ります。目次目次本グラフニューラルネットワーク ★ 深層ニューラルネットワークの高速化 ★ 論文 Training-free Graph Neural Networks and the Power of Labels as Features Overhead-free User-side Recommend…