谷歌团队研究证明,AI 标注已达人类水平
据新智元 9 月 5 日报道,谷歌团队的最新研究提出,用大模型替代人类进行偏好标注,也就是 AI 反馈强化学习(RLAIF)。结果发现,RLAIF 可以在不依赖人类标注员的情况下,产生与 RLHF 相当的改进效果,胜率 50%。同时,谷歌研究再次证明了 RLAIF 和 RLHF,比起监督微调(SFT)胜率都超过了 70%。
本文链接:https://www.8btc.com/article/6831908
转载请注明文章出处
原创文章,作者:惊蛰财经,如若转载,请注明出处:http://www.xmlm.net/bhq/26406.html