最近一段时间,有关 AI 科学家的研究越来越多。大语言模型(LLM)有望帮助科学家检索、综合和总结文献,提升人们的工作效率,但在研究工作中使用仍然有很多限制。对于科研来说,事实性至关重要,而大模型会产生幻觉,有时会自信地陈述没有任何现有来源或证据的信息。另外,科学需要极其注重细节,而大模型在面对具有挑战性的推理问题时可能会忽略或误用细节。最后,目前科学文献的检索和推理基准尚不完善。AI 无法参考整篇文献,而是局限于摘要、在固定语料库上检索,或者只是直接提供相关论文。这些基准不适合作为实际科学研究任务的性能代理,更重要的是,它们通常缺乏与人类表现的直接比较。因此,语言模型和智能体是否适合用于科学研究仍不清楚。
近日,来自 FutureHouse、罗切斯特大学等机构的研究者们尝试构建一个更为强大的科研智能体,并对 AI 系统和人类在三个现实任务上的表现进行严格比较。这三个任务有关搜索整个文献以回答问题;生成一篇有引用的、维基百科风格的科学主题文章;从论文中提取所有主张,并检查它们与所有文献之间的矛盾。
这可能是第一个在多个现实文献搜索任务上评估单个 AI 系统的强大程序。利用新开发的评估方法,研究者探索了多种设计,最终形成了 PaperQA2 系统,它在检索和总结任务上的表现超过了博士生和博士后。将 PaperQA2 应用于矛盾检测任务让我们能够大规模识别生物学论文中的矛盾。例如,ZNF804A rs1344706 等位基因对精神分裂症患者的大脑结构有积极影响的说法与后来发表的研究相矛盾,该研究发现 rs1344706 对大脑皮质厚度、表面积和皮质体积的影响会加剧患精神分裂症的风险。
GitHub 链接:https://github.com/Future-House/paper-qa
模型测试
为了评估 AI 系统对科学文献的检索能力,研究者首先生成了 LitQA2,这是一组共 248 个多项选择题,其答案需要从科学文献中检索。LitQA2 问题的设计目的是让答案出现在论文正文中,但不出现在摘要中,理想的情况下,在所有科学文献中只出现一次。这些约束使我们能够通过将系统引用的来源 DOI 与问题创建者最初分配的 DOI 进行匹配来评估回答的准确性(下图 A)。
为了执行这些标准,研究者生成了大量关于最近论文中模糊的中间发现的问题,然后排除了任何现有 AI 系统或人类注释者可以使用替代来源进行回答的问题。它们都是由专家生成的。
在回答 LitQA2 问题时,模型可以通过选择「信息不足,无法回答此问题」来拒绝回答。与先前的研究和实际的科学问题类似,有些问题本来就是无法回答的。研究者评估了两个指标:精确度(即在提供答案时正确回答的问题的比例)和准确度(即所有问题中正确答案的比例)。此外还考虑了召回率,即系统将其答案归因于 LitQA2 中表示的正确源 DOI 的问题的总百分比。
在开发了 LitQA2 之后,研究者利用它来设计一个科学文献的 AI 系统。在 PaperQA 的启发下,PaperQA2 是一个 RAG 智能体,它将检索和响应生成视为一个多步骤智能体任务,而不是一个直接过程。PaperQA2 将 RAG 分解为工具,使其能够修改其搜索参数,并在生成最终答案之前生成和检查候选答案(下图 A)。
PaperQA2 可以访问「论文搜索」工具,其中智能体模型将用户请求转换为用于识别候选论文的关键字搜索。候选论文被解析为机器可读的文本,并分块以供智能体稍后使用。PaperQA2 使用最先进的文档解析算法(Grobid19),能可靠地解析论文中的章节、表格和引文。找到候选论文后,PaperQA2 可以使用「收集证据」工具,该工具首先使用 top-k 密集向量检索步骤对论文块进行排序,然后进行大模型重新排序和上下文摘要(RCS)步骤。

性能分析
研究者尝试改变 PaperQA2 的参数,以了解哪些参数决定其准确性(下图 C)。他们创建了一个非智能体版本,其中包含一个硬编码操作序列(论文搜索、收集证据,然后生成答案)。非智能体系统的准确率明显较低(t (3.7)= 3.41,p= 0.015),验证了使用智能体的选择。研究者将性能差异归因于智能体更好的记忆能力,因为它可以在观察到找到的相关论文数量后返回并更改关键字搜索(论文搜索工具调用)。
结果显示,LitQA2 运行准确度最高时为每个问题进行了 1.26 ± 0.07(平均值 ± SD)次搜索,每个问题进行了 0.46 ± 0.02(平均值 ±SD)次引用遍历,这表明智能体有时会返回进行额外搜索或遍历引用图以收集更多论文。

总结
-
推理问题,即书面信息自相矛盾、过度推断或不受任何引用支持; -
归因问题,即信息可能得到另一个包含的来源支持,但该声明在本地没有包含正确的引用或来源太宽泛(例如数据库门户链接); -
琐碎的声明,这些声明虽是真实的段落,但过于迂腐或没有必要。
检测文献中的矛盾

