文章详情

【Meta】自学习评估器

edwin99

2024-10-22 01:36

92 阅读

0 评论

Meta 在 8 月发表了一篇题为《Self-Taught Evaluators》的论文，提出了自学习评估器，用于生成合成偏好数据来训练奖励模型，无需依赖人工标注。

论文链接：https://arxiv.org/abs/2408.02666

代码链接：https://github.com/facebookresearch/RAM/tree/main/projects/self_taught_evaluator

访问合成数据：https://huggingface.co/datasets/facebook/Self-taught-evaluator-DPO-data

模型链接：https://huggingface.co/facebook/Self-taught-evaluator-llama3.1-70B

同时，Meta 发布了使用直接偏好优化训练的模型。实验结果表明，在 RewardBench 上，虽然在训练数据创建中未使用任何人工标注，但其表现优于更大的模型或使用人工标注标记的模型，如 GPT-4、Llama-3.1-405B-Instruct 和 Gemini-Pro。

【Meta】自学习评估器