- 简介Kahneman和Tversky的$\textit{前景理论}$告诉我们,人类以一种有偏见但明确定义的方式来感知随机变量;例如,人类以损失规避的方式出名。我们展示了将LLMs与人类反馈对齐的目标隐含地包含了许多这些偏见 - 这些目标(例如DPO)的成功部分归因于它们是$\textit{人类感知损失函数}$(HALOs)。然而,这些方法所归因于人类的效用函数仍然与前景理论文献中的不同。使用Kahneman-Tversky模型的人类效用,我们提出了一种HALO,直接最大化代际效用,而不是像当前方法那样最大化偏好的对数似然。我们将这种方法称为Kahneman-Tversky优化(KTO),在1B到30B的规模上,它与基于偏好的方法的表现相匹配或超过。至关重要的是,KTO不需要偏好 - 只需要二进制信号,指示给定输入的输出是可取还是不可取。这使得它在现实世界中更容易使用,因为偏好数据很少且昂贵。
-
- 图表
- 解决问题提出一种新的人类感知优化方法Kahneman-Tversky Optimization (KTO),以解决在自然语言处理中生成模型与人类反馈之间的不匹配问题。
- 关键思路KTO通过直接最大化生成结果的效用函数,而非最大化偏好的对数似然,来实现生成模型与人类反馈的匹配。
- 其它亮点KTO是一种人类感知优化方法,不需要偏好数据,只需要二进制信号来指示生成结果是否符合期望。实验结果表明,KTO在1B到30B的规模下,与基于偏好的方法相比,表现相当甚至更好。
- 相关研究包括基于偏好的优化方法,如Deep Reinforcement Learning from Human Preferences和Differentiable Preference Learning for Neural Machine Translation,以及人类感知建模方法,如Prospect Theory和Kahneman-Tversky模型。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流