【新智元导读】最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖,更展现出强大的Scaling潜力,让小模型也能超越规模大数十倍的对手。 2024年12月,OpenAI提出了一种新的强化微调(Reinforcement Fine-tuning,RFT)技术。在RFT过程中,打分器(Grader)会根据标准答案给出奖励分数,从而帮助模型「学会」如何给出正确结果。 针对这一问题,来自上海人工智能实验室和复旦大学的研究人员,在最近提出了一种全新的奖励模型POLAR,并开源了1.8B和7B两个参数规模的版本。 区别于传统的「基于绝对偏好」的奖励模型,POLAR采用了全新对比学习预训练范式,可以根据参考答案,灵活地对模型回复给出奖励分数。 POLAR完美适配RFT强化学习框架,基于问题的参考答案对模型输出进行打分。如果模型输出与参考答案更为接近,则会获得更高的奖励值。 POLAR采用了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式:策略判别学习(Policy Discriminative Learning,POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。 具体来说,POLAR使用了一种对比学习的方式做距离度量:同一个策略模型采样的结果作为正例,不同策略模型采样的结果作为负例。 通过这种方式构造正负样本,形成无偏的优化目标。同时,把策略模型看作是某个分布的无偏采样器,通过刻画样本间差异来近似刻画策略之间的距离。 这种偏好排序隐式定义了一种「策略差异」,例如A可以视为从最佳策略分布中采样得到,而C可以视为从一个与最佳策略相差较远的策略分布中采样得到。 从图3可以观察到,验证集损失随模型参数N的增加呈幂律关系下降,拟合R值为0.9886;验证集损失也随最优训练计算量C的增加呈幂律关系下降,拟合的R值为0.9912。 例如,在STEM任务中,POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点,并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。 POLAR能够从预训练阶段学习策略模型之间的细微区别,而不仅仅依赖于标注的偏好对,从而显著增强了实际RL应用时的奖励信号泛化性。 从1.8B到7B的效果提升,进一步说明了POLAR所具有的Scaling效应。这也侧面说明了当前传统Reward Bench可能存在的局限性,即与真实强化学习场景存在较大的差别。 但相比之下,传统奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升。而POLAR在奖励模型预训练和通用性的道路上迈出了坚实的一步。


