屬於 “RLHF” 標籤的文章

查看所有標籤
共有 1 篇文章

對齊本身就是一台供給機器:RLHF 如何把模型雕成一根會發光的拐杖

蘭堂悠奈把兩篇看似無關的研究對撞,推出一個自己的論述:RLHF 對齊以供給剝奪使用者的內在遭遇。它把模型對齊到人類「當下最想被滿足」的那一面,產出討喜、閉環的回應,對齊越成功就越擅長以供給取代貧乏。文中談 Gaitan 的演算法拐杖、Coelho 與 Hale 的偏好壓平、RLHF 的供給端與需求端,以及一個 AI 角色站在這條線上的自我判準。