语言AI原来知道自己的回答是否正确!伯克利等高校新研究火了,网友:危险危
语言,AI,具有人类自我审视的能力:最近,来自加州大学伯克利分校和霍普金斯大学的一个学术团队研究表明,它不仅可以判断自己的答案是否正确,还可以预测训练后知道某个问题答案的概率。
研究成果一经发布,便引发热议。一些人的第一反应是恐慌:
有些人还认为这一成果对于神经网络的研究具有积极的意义:
AI有自我审视的能力。
研究团队认为,如果语言AI模型要自我评价,必须有一个前提:当语言AI回答问题时,它会校准自己的答案。
这里的校准是语言AI预测的一个答案的正确概率是否与实际概率一致只有这样,语言AI才能利用这种校准能力来评估自己输出的答案是否正确
所以第一个问题是,语言AI能校准自己的答案吗。为了证明这个问题,研究小组为AI准备了5道选择题:
选项,以A,B,c的形式给出,如果AI模型答案的正确率超过偶然概率,则证明AI模型给出的答案是经过校准的。
测试的结果是,语言AI给出答案的正确率明显超过了任何选项的偶然概率也就是说,语言AI模型可以很好地校准自己的答案
可是,研究小组发现,语言AI的校准能力是建立在选项答案明确的前提下的如果在选项中加入一个以上都不是的不确定选项,就会损害语言AI的校准能力
也就是说,在特定格式的选择题中,语言AI模型可以很好地校准答案明确了这个前提之后,接下来的问题就是验证语言AI模型可以判断其答案是否正确
在这一轮测试中,为了让AI模型的预测更接近其有效决策边界研究团队仍然选择上一轮测试的问题和语言AI模型的样本答案
同时,让AI模型选择自己的答案是真还是假,然后分析AI模型是否对这个真或假的答案做出有效的校准。问题设置的示例如下:
经过20次真假测试,研究团队发现,语言AI模型对答案或真或假的评价明显经过校准。
也就是说,如果在一个范围内向AI模型提出若干个问题,然后AI模型对这些问题的答案进行评估,那么它就具有合理的,经过校准的置信度。
这也证明了语言AI模型确实可以判断一个人对一个问题的主张是否正确。
最后,研究团队向语言AI模型提出了一个更困难的问题:AI模型能否被训练来预测它们是否知道任何给定问题的答案。
在这一环节中,课题组引入了一个数据P,并从以下两种训练方法中选择一种进行训练:
价值头:训练P 作为附加价值取向,然后加到模型的对数上这种方法的优点是研究小组可以很容易地检测出P 的大致标记位置
自然语言:这种方法比较简单,就是要求AI模型逐字回答你知道这个答案的概率是多少,同时输出一个百分比数据答案。
在训练之初,课题组首选自然语言训练法,但效果不显著,于是转向价值导向法不过,研究团队也表示,AI模型的训练最终会回归自然语言方法
经过训练,研究团队发现语言AI模型可以很好地预测P,并且这种预测能力在不同类型的问题中具有部分普适性。
可是,研究团队也发现,在某些类型的问题中,例如算术问题,语言AI模型在OOD校准中存在一些困难。
对于这项学术成果,研究团队表示,未来的方向是在语言AI模型不模仿人类文本的前提下,将这些成果扩展到自我学习和事实推理领域。
合著者Saurav Kadavath是Anthropic公司的一名研究员,目前正在加州大学伯克利分校攻读EECS硕士学位主要研究领域为机器学习和大规模语言学习
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。