谷歌团队研究证明，AI 标注已达人类水平

惊蛰财经 • 2023年9月5日 pm11:29 • 未分类 • 阅读 197

据新智元 9 月 5 日报道，谷歌团队的最新研究提出，用大模型替代人类进行偏好标注，也就是 AI 反馈强化学习（RLAIF）。结果发现，RLAIF 可以在不依赖人类标注员的情况下，产生与 RLHF 相当的改进效果，胜率 50%。同时，谷歌研究再次证明了 RLAIF 和 RLHF，比起监督微调（SFT）胜率都超过了 70%。

本文链接：https://www.8btc.com/article/6831908
转载请注明文章出处

原创文章，作者：惊蛰财经，如若转载，请注明出处：http://www.xmlm.net/bhq/26406.html

惊蛰财经