ソートはコンピュータサイエンスにおける古典的なタスクですが、これが最先端の LLM と結びつき、新たな研究の潮流が生まれています。 ソートは比較関数さえ定義すれば実行することができます。従来の比較関数は身長・金額・距離のように測定可能な数値の比…
本稿では Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs をもとに、最先端の LLM が未だにごく簡単な問題ですらミスすることを議論します。 具体例としては、11000 に含まれる 1 の数が偶数か奇数か聞くと、gpt-…
2025 年も色々やりましたので活動を振り返ります。 目次 目次 研究 Solving the Cold Start Problem on One's Own as an End User via Preference Transfer(エンドユーザー自身が嗜好転移によりコールドスタート問題を自力で解決する) Influential Bandits…
推論能力を高めるためには、LLM の事後訓練で使う訓練データは 1 つで十分かもしれません。本稿では訓練データを 1 つだけ使った強化学習についての研究 Reinforcement Learning for Reasoning in Large Language Models with One Training Example(単一の…
LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ ICLR 2025]。 まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロン…
LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察…
既存の機械学習モデルの多くは予測精度を最大化することを目指しますが、本稿では面白さを優先する分類器を紹介します。 目次 目次 面白さを優先するとは 問題設定 手法 実験結果 おわりに 面白さを優先するとは 例えば、ユーザーのプロフィールから、そのユ…