LLM对偏好进行标注后,将训练奖励模型预测偏好 【新智元导读】ChatGPT横空出世后,RLHF成为研究人员关注的焦点。谷歌最新研究提出,不用人类标注,AI标注偏好后,也能取得与RLHF一样的效... 2023-09-05 14:54:12