OPENSCHOLAR-基于大模型RAG的科研专家

科学进步取决于研究人员综合不断增长的文献的能力。大型语言模型（LM）能否帮助科学家完成这项任务？我们介绍了 OpenScholar ，这是一种专门的检索增强 LM，它通过从 4500 万篇开放获取论文中识别相关段落并综合引文支持的回复来回答科学问题。

AIGC莹子

824人浏览 · 2024-11-30 09:15:00

AIGC莹子 · 2024-11-30 09:15:00 发布

摘要

科学进步取决于研究人员综合不断增长的文献的能力。大型语言模型（LM）能否帮助科学家完成这项任务？

我们介绍了 OpenScholar ，这是一种专门的检索增强 LM，它通过从 4500 万篇开放获取论文中识别相关段落并综合引文支持的回复来回答科学问题。

为了评估 OpenScholar，我们开发了 ScholarQABench，这是第一个用于文献搜索的大规模多领域基准，包括 2,967 个专家撰写的查询和 208 个长篇答案，涵盖计算机科学、物理学、神经科学和生物医学。

在 ScholarQABench 上，OpenScholar -8B 的正确性比 GPT-4o 高出 5%，比 PaperQA2 高出 7%，尽管它是一个更小的开放模型。虽然 GPT4o 在 78-90% 的情况下会产生引文幻觉，但 OpenScholar 的引文准确性与人类专家相当。OpenScholar 的数据存储、检索器和自反馈推理循环也改进了现成的 LM：例如，OpenScholar -GPT4o 将 GPT-4o 的正确性提高了 12%。

在人工评估中，专家分别有 51% 和 70% 的时间更喜欢 OpenScholar -8B 和 OpenScholar -GPT4o 的回答，而不是专家编写的回答，而 GPT4o 的回答为 32%。我们开源了所有代码、模型、数据存储、数据和公开演示。

OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

https://arxiv.org/html/2411.14199v1

相关链接
openscholar.allen.ai/Blogallenai.org/blog/openscholar__OpenScholar codegithub.com/AkariAsai/OpenScholar__ScholarBench codegithub.com/AkariAsai/ScholarBenchCheckpoints, Data, IndexOpenScholar/openscholar-v1Expert EvaluationAkariAsai/OpenScholar_ExpertEval

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何利用大型语言模型（LLMs）来辅助科学家综合科学文献。具体来说，研究如何通过检索增强的语言模型（Retrieval-Augmented Language Models, RAG）来回答科学查询，识别相关段落并合成引用支持的响应。
研究难点：该问题的研究难点包括：LLMs的幻觉问题、依赖过时的预训练数据以及缺乏透明的引用归属。例如，在计算机科学和生物医学领域，GPT-4在引用最新文献时，有78-90%的时间会编造引用。
相关工作：该问题的研究相关工作包括检索增强的语言模型（如Lewis et al., 2020; Guu et al., 2020），但这些系统通常依赖于黑箱API或通用LLMs，没有针对科学领域进行优化，也没有使用开放的科学领域特定的检索数据存储。此外，科学文献综合的评估工作有限，通常使用单学科和小规模的人类评估（如Agarwal et al., 2024; Zheng et al., 2024）或简化的任务（如多项选择题问答）。

研究方法

这篇论文提出了OPENSCHOLAR，一种专门用于科学文献综合的检索增强语言模型。具体来说，

数据存储和检索器：OPENSCHOLAR使用了一个包含4500万篇开放获取论文的大型数据存储（OPENSCHOLAR-DATASTORE, OSDS），并为这些论文构建了相应的段落嵌入。检索器首先从ODS中检索段落，然后使用重排器对检索到的段落进行精炼和排序。
迭代自我反馈生成：在推理时，OPENSCHOLAR首先生成初始响应，并通过自然语言反馈迭代改进其输出。具体步骤包括：生成初始响应和反馈、使用反馈进行迭代细化、引用验证。
训练数据生成：为了训练一个更小但更具竞争力的8B模型，OPENSCHOLAR通过推理时管道生成高质量的训练数据。具体步骤包括：从数据存储中采样论文摘要、生成信息检索查询、使用OPENSCHOLAR推理时管道生成高质量响应。

实验设计

数据收集：OPENSCHOLAR使用peS2o v3.1作为数据源，包含截至2024年10月的4500万篇论文。每篇论文的主文被分割成250词的文本块，并与论文标题连接形成段落。
样本选择：在单篇论文任务中，使用了SciFact、PubMedQA和QASA等现有数据集，并从这些数据集中提取出需要多篇论文回答的问题。在多篇论文任务中，招募了博士研究人员生成复杂科学问题，并要求他们从整个开放获取的论文集合中检索相关信息。
参数配置：对于8B模型，使用Llama 3.1 8B进行训练，训练数据来自Ivison et al. (2023)和SciRIFF (Wadden et al., 2024)。训练过程中，设置了最大上下文长度为10k，批量大小为1，梯度累积步长为2，优化器为AdamW。

结果与分析

单篇论文任务：在单篇论文任务中，OPENSCHOLAR的OS-8B和OS-70B在最终正确率和引用准确率方面均优于其他模型。例如，OS-70B在PubMedQA和QASA任务上的表现与GPT-4o相当甚至更好。
多篇论文任务：在多篇论文任务中，OPENSCHOLAR-8B、70B和GPT4o（OS-8B、OS-70B和OS-GPT4o）表现出强大的性能。OS-GPT4o在SCHOLAR-CS任务上的正确率比GPT4o提高了12.7个百分点，比标准RAG提高了5.3个百分点。
自动评估：在自动评估中，OPENSCHOLAR在引用准确率、内容质量和组织等方面均优于其他模型。例如，OS-8B在SCHOLAR-CS任务上的引用准确率为47.9%，而GPT4o仅为31.1%。
人类评估：在人类评估中，OPENSCHOLAR-GPT4o和OS-8B在有51%和70%的情况下优于人类编写的答案。专家评估显示，OPENSCHOLAR生成的答案在覆盖范围和组织方面优于人类编写的答案。

总体结论

这篇论文提出了OPENSCHOLAR和SCHOLARQABENCH，分别用于解决科学文献综合问题和评估文献回顾自动化。OPENSCHOLAR通过检索增强和迭代自我反馈生成，显著提高了科学文献综合的质量和准确性。SCHOLARQABENCH提供了一个标准化的大规模多领域评估基准，支持多种科学领域的文献回顾任务。实验结果表明，OPENSCHOLAR在多个任务和评估中均优于现有的系统和人类编写的答案。论文还开源了OPENSCHOLAR的所有代码、模型、数据存储和SCHOLARQABENCH基准，以支持和加速未来的研究工作。

论文评价

优点与创新

创新的检索增强模型：OPENSCHOLAR是一个创新的检索增强语言模型，专门用于科学文献的合成。它通过结合检索和自反馈生成来提高响应的质量和准确性。
大规模数据集：OPENSCHOLAR使用了包含4500万篇开放获取论文的OPENSCHOLAR-DATASTORE，这是目前最大的开源科学领域数据集。
多领域基准测试：SCHOLARQABENCH是一个大规模的多领域基准测试，涵盖了计算机科学、物理学、神经科学和生物医学四个领域，提供了现实且可复现的评估。
高质量训练数据：通过自反馈生成高质量的训练数据，使得较小的、更高效的模型也能生成高质量的输出。
专家评估：进行了详细的专家评估，涉及16位来自计算机科学、物理学和生物医学领域的科学家，结果显示OPENSCHOLAR生成的答案在覆盖率和组织性方面优于人类编写的答案。
开源生态系统：所有代码、模型、数据存储、数据和公共演示都开源，支持并加速未来的研究工作。

不足与反思

数据集规模限制：由于招募专家注释者的成本和时间的限制，带有人类编写答案的评估数据集相对较小，这可能引入统计方差和潜在的偏见。
自动评估管道的局限性：自动评估管道可能无法完美地捕捉生成内容的质量，特别是在评估引用精度和覆盖范围时。
注释者的专业知识：注释者的专业知识可能无法完全覆盖所有领域，特别是那些访问论文数据受限的领域。
模型能力的局限：尽管OPENSCHOLAR在多个方面表现出色，但它仍然依赖于预训练的模型，这些模型可能会随着时间的推移而演变，影响结果的复现性。
未来工作方向：未来的研究可以探索如何更好地整合版权受保护的论文内容，并进一步提高模型在科学文献综述任务中的表现。

关键问题及回答

问题1：OPENSCHOLAR在处理科学文献综述任务时，如何确保引用的准确性和透明度？

OPENSCHOLAR通过以下步骤确保引用的准确性和透明度：

数据存储和检索器：OPENSCHOLAR使用了一个包含4500万篇开放获取论文的大型数据存储（OPENSCHOLAR-DATASTORE, OSDS），并为这些论文构建了相应的段落嵌入。检索器首先从ODS中检索段落，然后使用重排器对检索到的段落进行精炼和排序。
迭代自我反馈生成：在推理时，OPENSCHOLAR首先生成初始响应，并通过自然语言反馈迭代改进其输出。具体步骤包括：生成初始响应和反馈、使用反馈进行迭代细化、引用验证。通过这种方式，模型能够在生成响应的过程中不断校正和验证引用的准确性。
引用验证：在生成最终响应后，OPENSCHOLAR会指示生成器LM验证响应中的引用。具体来说，模型确保所有需要引用的陈述都有适当的引用支持，并且在移除引用后不会影响响应的完整性。

问题2：SCHOLARQABENCH作为一个大规模多领域评估基准，具体包括哪些任务和评估指标？

SCHOLARQABENCH包括以下任务和评估指标：

单篇论文任务：这些任务包括SciFact、PubMedQA和QASA等现有数据集，主要评估模型在单篇论文中的表现，如事实准确性、引用准确性和答案质量。
多篇论文任务：这些任务包括SCHOLARQA-CS、SCHOLARQA-BIO、SCHOLARQA-NEURO和SCHOLARQA-MULTI，要求模型从多篇论文中检索和综合信息，生成长形式的答案。评估指标包括答案的正确性、引用准确率、内容覆盖范围、组织结构和整体有用性。
自动评估：使用Prometheus和osunlp/attrscore-flan-t5-xl等工具对生成的答案进行自动评估，涵盖引用准确率、内容质量和组织结构等方面。
人类评估：招募博士研究人员对模型生成的答案进行详细评估，评估指标包括答案的正确性、引用准确率、内容覆盖范围、组织结构和整体有用性。

问题3：OPENSCHOLAR在人类评估中的表现如何，与其他模型相比有哪些优势？

在人类评估中，OPENSCHOLAR的表现显著优于其他模型，具体优势包括：

正确答案率：OPENSCHOLAR-GPT4o和OS-8B在有51%和70%的情况下优于人类编写的答案，显示出其在生成高质量答案方面的能力。
覆盖范围和组织：专家评估显示，OPENSCHOLAR生成的答案在覆盖范围和组织方面优于人类编写的答案。具体来说，OPENSCHOLAR能够提供更广泛和深入的信息，组织更加清晰和有逻辑。
整体有用性：在人类评估中，OPENSCHOLAR-GPT4o和OS-8B的答案被认为是有用的比例分别为80%和72%，显著高于人类编写的答案。
引用准确性：OPENSCHOLAR在引用准确率方面也表现出色，生成的答案中引用的论文大多真实存在且相关，减少了虚假引用的问题。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

基于Echarts的甘特图实现与封装实战

Echarts（Enterprise Charts）是由百度开源的一款功能强大、高度可定制的JavaScript数据可视化库，广泛应用于各类企业级Web应用中。其核心设计理念是“以数据驱动视图”，通过声明式配置即可实现复杂图表的渲染与交互。在现代前端工程化背景下，Echarts不仅支持静态图表展示，更具备动态更新、大数据量处理和跨平台兼容等高级能力，成为构建高性能数据看板、实时监控系统和项目管理工