ジョイジョイジョイ

ジョイジョイジョイジョイジョイ

離散分布のサンプリングと更新を定数時間で

そんなことできるんだ感と研究実用性を兼ね備えているところが好きです。最近、研究で使ったのですが、ChatGPT に訊いても答えられなかったので記事にしました。元ネタは現 Google Vice President の Yossi Matias らによる Dynamic Generation of Discrete …

LLMと言葉の「感じ方」

認知意味論 (cognitive semantics) は、言葉の意味を人間の認識や感じ方と関連付けて理解する言語学のアプローチです。本稿では、認知意味論の考え方をもとにした「LLM の認知」についてお話します。 認知意味論の背景にはゲシュタルト心理学 (Gestalt psych…

LLMでソート

ソートはコンピュータサイエンスにおける古典的なタスクですが、これが最先端の LLM と結びつき、新たな研究の潮流が生まれています。 ソートは比較関数さえ定義すれば実行することができます。従来の比較関数は身長・金額・距離のように測定可能な数値の比…

LLMの能力の「穴」

本稿では Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs をもとに、最先端の LLM が未だにごく簡単な問題ですらミスすることを議論します。 具体例としては、11000 に含まれる 1 の数が偶数か奇数か聞くと、gpt-…

2025 まとめ

2025 年も色々やりましたので活動を振り返ります。 目次 目次 研究 Solving the Cold Start Problem on One's Own as an End User via Preference Transfer(エンドユーザー自身が嗜好転移によりコールドスタート問題を自力で解決する) Influential Bandits…

訓練データ1個だけでLLMの推論性能を倍にする

推論能力を高めるためには、LLM の事後訓練で使う訓練データは 1 つで十分かもしれません。本稿では訓練データを 1 つだけ使った強化学習についての研究 Reinforcement Learning for Reasoning in Large Language Models with One Training Example(単一の…

LLMのキモい算術

LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します [Nikankin+ ICLR 2025]。 まずは前提条件を確認します。思考の連鎖は使わず、「226-68=」のようなプロン…

LLM のアテンションと外挿

LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察…

面白さ優先分類器

既存の機械学習モデルの多くは予測精度を最大化することを目指しますが、本稿では面白さを優先する分類器を紹介します。 目次 目次 面白さを優先するとは 問題設定 手法 実験結果 おわりに 面白さを優先するとは 例えば、ユーザーのプロフィールから、そのユ…

人間を騙してサボるAIたち

AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF(言語モデルは RLHF を通じて人間を誤解させることを学ぶ)を…

アンナ・カレーニナの法則と真理に収束していくモデルたち

幸せな家族はどれもみな同じようにみえるが、不幸な家族にはそれぞれの不幸の形がある。 — 『アンナ・カレーニナ』 アンナ・カレーニナの法則 (Anna Karenina principle) とは、成功の状態は一つしかないが、失敗の状態は無数にありうるという、トルストイの…

言語モデルの物理学

言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学…

絶対に分かる機械学習理論

私が機械学習を学び始めたとき、訓練データとテストデータは異なるのだから、訓練データ上で損失を下げたとしても、テストデータでの性能が必ずしも保証されるとは限らないのではないかと感じ、理解に苦労しました。 本稿では、かつての自分を含め、統計と機…

人間には認知できない情報を活用するAIたち

正月休みに Twitter(現 X)を眺めていると面白いポストを見かけました。 これまで人類は真理とは単純なものであると考えて、 や のような単純な真理を追いかけてきたわけですが、このようなものは実は真理のうちのごく一部であり、人間には理解できないほど…

2024 まとめ

2024 年も色々やりましたので活動を振り返ります。 目次 目次 本 グラフニューラルネットワーク ★ 深層ニューラルネットワークの高速化 ★ 論文 Training-free Graph Neural Networks and the Power of Labels as Features Overhead-free User-side Recommend…

否定文を理解できないAIたち

BERT や GPT の登場により、テキストを扱うモデルは大きく発展しましたが、否定というごくありふれた操作を扱うのが依然難しいです。 本稿では、その理由と、部分的な解決策を紹介します。 目次 目次 否定文を理解できないAIたち 否定文を理解できずに困るこ…

Amazonの推薦をいい感じにするブラウザ拡張Amaxをリリースしました

Amazonの推薦をいい感じにするブラウザ拡張Amaxというブラウザ拡張をリリースしました。会員登録など必要なく、もちろん無料で、ブラウザ拡張をインストールしていつも通り Amazon を使うだけでいい感じになります。手軽なのでぜひ使ってみてくださいね。 ch…

トランスフォーマーは RNN である

拙著『深層ニューラルネットワークの高速化』が重版して第 2 刷となりました。皆さまありがとうございます! 深層ニューラルネットワークの高速化 (ML Systems)作者:佐藤 竜馬技術評論社Amazon もはや恒例、重版に感謝して書き下ろし専門記事をお届けします…

『深層ニューラルネットワークの高速化』を上梓しました。

深層ニューラルネットワークの高速化 ML Systems作者:佐藤 竜馬技術評論社Amazon 技術評論社より『深層ニューラルネットワークの高速化(ML Systems)』を上梓しました。 (※ ML Systems というのは本書が一作目となる技術評論社の新しいシリーズで、今後も…

深層学習で部分空間を扱うときは射影行列を考えるとよい

拙著『グラフニューラルネットワーク』が重版して第 5 刷となりました。皆さまありがとうございます! 【重版速報】 機械学習プロフェッショナルシリーズの重版が決まりましたご愛読ありがとうございます‼️松井孝太・熊谷亘『転移学習』【4刷】 https://t.co…

GNN の最新動向 (ICLR 2024)

拙著『グラフニューラルネットワーク』が重版して第 3 刷となりました。皆さまありがとうございます! 拡散モデルと最適輸送でもやりましたが、漫画家さんやイラストレーターさんが重版したときに重版感謝の描き下ろしイラストを投稿しているのを見ていいな…

『グラフニューラルネットワーク』を上梓しました

グラフニューラルネットワーク (機械学習プロフェッショナルシリーズ)作者:佐藤 竜馬講談社Amazon 講談社より『グラフニューラルネットワーク(機械学習プロフェッショナルシリーズ)』を上梓しました。 グラフニューラルネットワークはグラフデータのための…

松井・熊谷『転移学習』の感想

講談社サイエンティフィク様より『転移学習』をご恵贈いただきました。一通り読み終えたので感想を書きます。 転移学習 (機械学習プロフェッショナルシリーズ)作者:松井 孝太,熊谷 亘講談社Amazon 全 414 ページとかなりの重厚感。しかも決して引き伸ばした…

大学で読んだ情報科学関連の教科書

先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもお…

拡散モデルと最適輸送

『最適輸送の理論とアルゴリズム』が重版して第 5 刷となりました。皆さまありがとうございます! 漫画家さんやイラストレーターさんが重版したときに重版感謝の描き下ろしイラストを投稿しているのを見ていいなと思ったので、僕も専門書が重版したときに重…

モデルパラメータの算術

深層モデルのパラメータを一列に並べてベクトルにします。このベクトルは大規模なモデルであれば何十億次元にもなります。一見、意味のない数値の羅列のようですが、このベクトルはベクトルとして深い意味があることが分かってきています。例えば、 と を異…

『Human-in-the-Loop 機械学習』

共立出版さまより『Human-in-the-Loop 機械学習』をご恵贈いただきました。一通り読み終えたので感想を共有します。 映り込みが激しくて写真を撮るのが難しいことで有名な表紙 本書は機械学習モデルを訓練するためのデータを人間がどのように用意するかとい…

2023 まとめ

2023 も色々やりました。 ↓去年 joisino.hatenablog.com 研究 今年はあまり論文を出版できませんでした。去年 10 本出版しましたとか言って調子に乗っていたのに……。優しい内臓先生の「私は過去の自分と比較するのが好きです。高確率で勝てるので。」という…

君たちはどう研究するか

IBIS 2023 のパネルディスカッション「君たちはどう研究するか」にて研究の取り組み方についてお話しました。この記事はそこでお話した内容を編集したものです。 研究テーマの決め方について 研究プロジェクトの進め方 ‍ 研究がうまくいかないときの対処法 …

論文読みの日課について

かれこれ三年以上ほぼ毎朝論文を読んでいます。 ほぼ毎朝、というのは本当にほぼ毎朝です。この三年のうち読まなかった日はワクチンの副反応でダウンしている日など、あわせて 10 ~ 20 日ほどでしかありません。この日課だけでも 1000 本以上は論文を読んだ…