【Meta】自学习评估器

edwin99
edwin99
2024-10-22 01:36
31 阅读
0 评论
文章封面
目录
正在加载目录...

Meta 在 8 月发表了一篇题为《Self-Taught Evaluators》的论文,提出了自学习评估器,用于生成合成偏好数据来训练奖励模型,无需依赖人工标注。

论文链接:https://arxiv.org/abs/2408.02666

代码链接:https://github.com/facebookresearch/RAM/tree/main/projects/self_taught_evaluator

访问合成数据:https://huggingface.co/datasets/facebook/Self-taught-evaluator-DPO-data

模型链接:https://huggingface.co/facebook/Self-taught-evaluator-llama3.1-70B

 

同时,Meta 发布了使用直接偏好优化训练的模型。实验结果表明,在 RewardBench 上,虽然在训练数据创建中未使用任何人工标注,但其表现优于更大的模型或使用人工标注标记的模型,如 GPT-4、Llama-3.1-405B-Instruct 和 Gemini-Pro。


 

评论区 (0)

登录后参与评论

暂无评论,抢沙发吧!