文章详情

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。Reflection 70B 已在多个基准测试中经过严格测试，包括 MMLU 和 HumanEval。测试结果表明， Reflection 的表现始终优于 Meta 的 Llama 系列，并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。

其中，它在 GSM8K 的得分甚至达到了 99.2%。要知道，GSM8k 中可能有有超过 1% 的被标为正确的答案实际上有错，也就是说，Reflection 70B 的得分几乎与满分无异。值得注意的还有 Reflection 70B 的零样本推理能力。面对从未接触过的内容，Reflection 70B 的表现超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次样本测试中的得分。Reflection 70B 特别适用于需要高精度的任务，它将推理分为不同的步骤以提高精度。该模型可通过 Hugging Face 下载，API 访问将于今天晚些时候通过 GPU 服务提供商 Hyperbolic Labs 提供。

Hugging Face：https://huggingface.co/mattshumer/Reflection-70B

试用网址：https://reflection-playground-production.up.railway.app/

模型自动纠错

在通用能力之外，Reflection 70B 的亮点还包括「错误识别」和「错误纠正」。一种名为「Reflection-Tuning」的技术，使得模型能够在最终确定回复之前，先检测自身推理的错误并纠正。Reflection 70B 引入了几个用于推理和纠错的特殊 token，使用户能够以更结构化的方式与模型交互。在推理过程中，模型会在特殊标签内输出其推理，以便在检测到错误时进行实时纠正。

Playground 演示网站包含供用户使用的建议提示词，比如那些很经典的例子：询问 Reflection 70B 单词「Strawberry」中有多少个「r」，以及哪个数字更大（9.11 还是 9.9），这两个简单的问题曾经难倒过很多大模型。Reflection 70B 在测试中显得有些迟缓，但最终 60 多秒后给出了正确的答案。

Reflection 70B 的发布只是 Reflection 系列的开端。与此同时，Reflection 405B 也在推出的路上了，预计下周上市。Shumer 表示，它的性能将远远超过目前的专有或闭源 LLM，例如目前全球领先的 OpenAI 的 GPT-4o。

编码能力

Reflection-70B 的编码能力也得到了认证。有网友在 ProLLM 的编码辅助任务中对 Reflection-70B 进行了基准测试。它确实是最好的开源模型之一，击败了 Llama-3.1 405B。

设计思路

略

开源大模型Reflection 70B性能分析

目录

评论区 (0)