LLM对偏好进行标注后，将训练奖励模型预测偏好

导读【新智元导读】ChatGPT横空出世后，RLHF成为研究人员关注的焦点。谷歌最新研究提出，不用人类标注，AI标注偏好后，也能取得与RLHF一样的效果。大部分网友认为论文是很大的突

在 LLM 对偏好进行标记后，将训练奖励模型 (RM) 来预测偏好。由于研究人员的方法产生软标签，因此他们采用 RM 生成奖励分数的 softmax 的交叉熵损失，而不是奖励模型中提到的损失。

Softmax 将无界 RM 分数转换为概率分布。

在人工智能标记的数据集上训练 RM 可以被视为模型蒸馏的一种形式，特别是因为研究人员的 AI 标记器通常比 RM 更大、更强大。

另一种方法是绕过 RM，直接使用 AI 反馈作为 RL 中的奖励信号，尽管这种方法的计算成本更高，因为 AI 标记器比 RM 更大。

通过经过训练的 RM，研究人员使用适用于语言建模领域的 Advantage Actor Critic (A2C) 算法的修改版本进行强化学习。

评价

研究人员通过三个指标评估了他们的结果——人工智能标记器对齐、配对准确性和获胜率。

AI 标记器对齐用于衡量 AI 标记偏好相对于人类偏好的准确性。

举一个例子，将软 AI 标记的偏好转换为二进制表示。如果注释与目标人类偏好一致则赋值1，否则赋值0。

成对准确性是衡量经过训练的奖励模型相对于一组保留的人类偏好的准确程度的指标。

给定共享上下文和一对候选响应，如果根据人工注释，RM 对首选候选的评分高于非首选候选，则配对准确度为 1。否则该值为 0。该数量是多个示例的平均值，以衡量 RM 的整体准确性。

胜率通过测量人们更喜欢一种策略而不是另一种策略的频率来评估两种策略的端到端质量。

给定输入和两代结果，人类注释者选择更喜欢哪一代。策略 A 优于策略 B 的实例百分比称为“A 与 B 胜率”。

实验详情

研究人员使用了由 OpenAI 管理的经过过滤的 Reddit TL;DR 数据集。 TL;DR 包含来自 Reddit 的约 300 万篇关于各种主题的帖子（也称为“subreddits”）以及原作者撰写的帖子摘要。

数据还经过 OpenAI 过滤以确保高质量，其中包括使用公众可以理解的 Reddit 主题白名单。

此外，仅包含摘要中带有 24 至 48 个标注的帖子。过滤后的数据集包含 123,169 个帖子，其中约 5% 用作验证集。

有关数据集的更多详细信息可以在原始论文中找到。此外，OpenAI 从过滤后的 TL;DR 数据集中整理了一个人类偏好数据集。

对于给定的帖子，根据不同的策略生成两个候选摘要，并要求注释者对他们首选的摘要进行评分。总数据集包含大约 92k 成对比较。

法学硕士注释

为了评估人工智能注释技术（例如提示、自我一致性）的有效性，研究人员从 TL;DR 偏好数据集中选择示例，其中人类注释者更喜欢具有更高置信度的抽象。

研究人员在数据集训练分割的随机 15% 子集上评估了 AI 注释器对齐，以实现更快的实验迭代，生成 2,851 个评估示例。

对于奖励模型训练，TL;DR 偏好数据集的完整训练分割由 LLM 注释并用于训练，无论置信度分数如何。

模型训练

研究人员使用 PaLM2Extra-Small (XS) 作为初始检查点，在 OpenAI 过滤的 TL;DR 数据集上训练 SFT 模型。

然后，研究人员从 SFT 模型中初始化 RM，并在 OpenAI 的 TL;DR 人类偏好数据集上对它们进行训练。

对于表1和5.1的结果，研究人员使用PaLM2L生成AI注释的偏好，使用“OpenAI + COT0-shot”提示（，无自洽性），然后在完整的偏好上训练RM数据集。

对于强化学习，研究人员使用 Advantage Actor Critic (A2C) 来训练策略。策略模型和价值模型都是从 SFT 模型初始化的。研究人员使用过滤后的 Reddit TL;DR 数据集作为启动策略的初始状态。

人工评估

研究人员收集了 1,200 名人类评级来评估 RLHF 和 RLAIF 策略。对于每个评级任务，评估者都会收到根据不同策略生成的帖子和 4 个摘要（RLAIF、RLHF、SFT 和人类参考各一个），并要求按质量顺序对它们进行排名，没有任何联系。

帖子取自 TL;DR 监督微调数据集的保留集，该数据集未用于任何其他评估。一旦收集了这些排名，就可以计算出任意两种策略的胜率。

胜率 50%，平局

RLAIF 与 RLHF

文章开头我们已经介绍了Google对比RLAIF和RLHF的优点。结果表明两种方法具有相似的性能。

具体而言，与基线 SFT 相比，人类评估者在 71% 的情况下更喜欢 RLAIF。 RLHF 在 73% 的时间里优于 SFT。

研究人员还直接比较了 RLAIF 和 RLHF 的胜率，发现它们同样受欢迎——也就是说，它们的胜率都是 50%。

为了进一步了解这两种策略之间的差异，谷歌对其生成的摘要进行了定性比较。

此外，他们还将 RLAIF 和 RLHF 摘要与人工编写的参考摘要进行了比较。 RLAIF 生成的摘要在 79% 的情况下优于参考摘要，RLHF 结果在 80% 的情况下优于参考摘要。

可以看出，RLAIF和RLHF与参考摘要的胜率差异仅为1%，并无显着差异。

值得注意的是，研究人员还发现，RLHF策略中出现幻觉的频率往往高于RLAIF策略中的出现频率，如上表中红色标记的文字所示。

在控制摘要长度后，RLAIF 和 RLHF 策略仍然优于基线 SFT 并实现相似的胜率。

这些结果表明，RLAIF 不需要依赖人工注释，是 RLHF 的可行替代方案。

尖端

在暗示技术的使用上，谷歌团队尝试了三种类型的暗示技术：序言特异性、CoT、少样本上下文学习。

结果发现，AI标注器通过详细的OpenAI序言提示并进行CoT推理，可以达到78%的一致性。

而情境学习并不能提高准确性，甚至可能会使准确性变得更糟。

自我一致性

研究人员分别使用4个和16个样本进行了自一致性实验，解码温度为1。

以T=1对多个思想链原理进行采样，结果不太符合人类的偏好。

大模型标记器的尺寸

研究还发现，增加大型模型注释器的参数大小可能会产生更高质量的偏好注释。

优选示例的数量

奖励模型的准确性如何随着训练样本的变化而变化？

研究人员发现，在对数千个示例进行训练后，奖励模型的性能接近于在完整数据集上进行训练的性能。

综上所述

研究人员证明，RLAIF 可以在不依赖人类注释者的情况下产生与 RLHF 相当的改进。

尽管这项工作凸显了 RLAIF 的潜力，但仍然存在一些局限性。

首先，本研究仅探讨了摘要任务，还需要进一步研究对其他任务的推广性。

其次，研究人员并没有估计LLM推理在经济成本方面是否比人工标注更有优势。

此外，还有一些有趣的问题需要研究，例如 RLHF 与 RLAIF 相结合是否可以优于单一方法，直接使用 LLM 分配奖励的效果如何，改进 AI 标记器对齐是否会转化为改进的最终策略，以及是否使用 LLM 注释器与策略模型大小相同可以进一步改进策略（即模型是否可以“自我改进”）。

网友热议

Google 发表了两篇关于 RL 的论文：

1. RLAIF：训练类似于人类反馈的奖励模型

2. ReST：使用生成模型促进自我训练。结合这两篇论文可以满足那些需要大量数据的人工智能算法。

半个月前，谷歌DeepMind刚刚提出了一种新算法ReST，目的是为了让大规模语言模型符合人类的偏好。

具体来说，通过离线强化学习方法，提高大型语言模型的翻译质量，以更好地满足人类的偏好。

一位研究人员表示，基于定性测试，Anthropic 的 Claude 模型似乎弱于 GPT-4。这可能是由 RLHF/RLAIF 方法或预训练引起的。目前尚不清楚这些方法在实践中是否能更好地推广，即使它们在学术基准上表现更好。

我不会说这降低了人工注释的重要性，但有一点是肯定的，人工智能提供的强化学习可以降低成本。人类注释对于泛化仍然极其重要，并且 RLHF+RLAIF 混合方法优于任何单一方法。

大多数网友认为该论文是一个很大的突破，但也有网友认为这与几个月前Anthropic提出的Constitute Claude中的RLAIF似乎没有本质区别。

参考：

LLM对偏好进行标注后，将训练奖励模型预测偏好

猜你喜欢：

最新文章：