2025-06-23から1日間の記事一覧

2025-06-23

人間を騙してサボるAIたち

AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF（言語モデルは RLHF を通じて人間を誤解させることを学ぶ）を…

ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

ｼﾞｮｲｼﾞｮｲｼﾞｮｲｼﾞｮｲｼﾞｮｲ

2025-06-23から1日間の記事一覧

人間を騙してサボるAIたち