谷歌DeepMind震撼发布TxGemma：高效药物研发大模型智能体！

摘要治疗开发是一项成本高昂且风险较高的事业，常常受到高失败率的困扰。为解决这一问题，我们推出了TxGemma，一套高效、全能型的大型语言模型（LLMs），能够进行治疗属性预测以及交互式推理和可解释性分析。与特定任务模型不同，TxGemma从多种来源综合信息，使其能够在整个治疗开发流程中得到广泛应用。该套件包括从Gemma-2在综合数据集（包含小分子、蛋白质、核酸、疾病和细胞系）上微调得到的2B、9

AGI大模型老王

974人浏览 · 2025-03-30 20:13:24

AGI大模型老王 · 2025-03-30 20:13:24 发布

摘要

治疗开发是一项成本高昂且风险较高的事业，常常受到高失败率的困扰。为解决这一问题，我们推出了TxGemma，一套高效、全能型的大型语言模型（LLMs），能够进行治疗属性预测以及交互式推理和可解释性分析。与特定任务模型不同，TxGemma从多种来源综合信息，使其能够在整个治疗开发流程中得到广泛应用。该套件包括从Gemma-2在综合数据集（包含小分子、蛋白质、核酸、疾病和细胞系）上微调得到的2B、9B和27B参数模型。在66项治疗开发任务中，TxGemma的表现优于或等同于最先进的全能型模型在64项任务上（其中45项表现更优），并且在50项任务上优于最先进的专门化模型（其中26项表现更优）。在治疗下游任务（如临床试验不良事件预测）中对TxGemma模型进行微调所需的训练数据少于对基础LLMs进行微调，这使得TxGemma适用于数据有限的应用场景。除了这些预测能力之外，TxGemma还具备对话模型，能够弥合全能型LLMs与专门属性预测器之间的差距。

科学家们使用自然语言进行交流，提供基于分子结构的预测的机械性推理，并参与科学讨论。在此基础上，我们进一步介绍了Agentic-Tx，这是一种由Gemini 2.0驱动的通用治疗代理系统，能够进行推理、采取行动、管理多样化的工作流程，并获取外部领域知识。在Humanity's Last Exam基准测试（化学与生物学）中，Agentic-Tx超越了之前领先模型，与o3-mini（高）相比相对改进了9.8%（高级推理模型），与o1相比则提高了17.9%。在ChemBench上，TxGemma的表现也很出色，与o3-mini（高）相比，ChemBench偏好方面的改进为5.6%，ChemBench Mini方面的改进为1.1%，与o1相比则提高了4.3%。TxGemma的集合作为开放模型发布，使研究人员能够在其各自多样化的数据集上进行适应和验证，从而促进了更具挑战性的实际应用。

TxGemma 模型是使用 700 万个训练示例从 Gemma 2 微调而来的，是专为预测和对话治疗数据分析而设计的开放式模型。这些型号有三种尺寸可供选择：2B、9B 和 27B。每个大小都包括一个“预测”版本，专门为从 Therapeutic Data Commons 中提取的狭窄任务量身定制，例如预测分子是否有毒。
这些任务包括：

分类（例如，这种分子会穿过血脑屏障吗？
回归（例如，预测药物的结合亲和力）
生成（例如，给定某个反应的产物，生成反应物组）

核心速览

研究背景

研究问题
：这篇文章要解决的问题是如何在药物研发过程中提高效率和准确性。传统的药物研发方法成本高、风险高，失败率高。计算方法的兴起为解决这些问题提供了新的工具。
研究难点
：该问题的研究难点包括：如何从大量的复杂和昂贵的实验数据中高效地提取有用信息；如何在药物研发的不同阶段（如早期目标识别、临床试验等）提供准确的预测和解释。
相关工作
：该问题的研究相关工作包括：利用机器学习模型进行药物发现和开发的预测；使用特定任务的大语言模型（LLMs）进行药物属性预测；以及开发代理系统来管理和执行复杂的药物研发工作流程。

研究方法

这篇论文提出了TxGemma，一套高效的通用大型语言模型（LLMs），用于药物研发。具体来说，

数据收集：利用Therapeutic Data Commons（TDC）中的66个AI就绪数据集，涵盖药物发现和发展管道中的各种生物医学实体。TDC包含超过1500万个数据点，涵盖单一实例预测、多实例预测和生成任务。
数据预处理：将原始TDC数据转换为适合LLMs的指令调优格式。每个数据点被格式化为一个提示，包括任务描述、相关生化背景和相关问题的查询。
模型训练：基于Gemma-2系列轻量级、最先进的开源LLMs，使用TDC的治疗指令调优数据进行微调，创建TxGemma-2B-Predict、TxGemma-9B-Predict和TxGemma-27B-Predict模型。对话模型通过补充治疗指令调优数据和通用指令调优数据进行训练。
推理和解释：引入TxGemma-Chat，具有推理和解释能力的对话模型，能够与用户进行自然语言交互，解释其预测结果。
代理系统：开发Agentic-Tx，一个以药物研发为中心的代理系统，利用ReAct框架进行推理和行动。Agentic-Tx配备了18个工具，能够解决复杂的多步骤问题。

实验设计

数据集
：使用TDC中的66个AI就绪数据集，涵盖药物发现和发展管道中的各种生物医学实体。数据集包括小分子、蛋白质、核酸、疾病和细胞系的SMILES字符串、氨基酸序列、核苷酸序列和自然语言文本。
实验设置
：对TxGemma模型进行微调，使用TDC的治疗指令调优数据。训练过程中使用了70%的零样本提示和30%的少样本提示策略。评估时使用10样本提示，从训练和验证集中选择最近邻样本。
性能评估
：使用不同的性能指标评估模型的预测能力，包括二元分类任务的AUROC、AUPRC和准确率；回归任务的Spearman和Pearson相关系数、MAE和MSE；以及生成任务的集合准确率。

结果与分析

预测性能：TxGemma-27B-Predict在66个治疗开发任务中，有64个任务的性能优于或接近最先进的通用模型，有50个任务的性能优于最先进的专用模型。与现有的治疗通用模型相比，TxGemma-27B-Predict在45个任务上表现更好，在21个任务上表现稍差。
对话能力：TxGemma-Chat在MMLU基准测试中的准确率为73.87%，略低于Gemma-2-27B的75.38%，但在医学遗传学、高中统计学和大学化学等领域表现出轻微改进。与TxGemma-27B-Predict相比，TxGemma-27B-Chat在所有治疗任务上的相对性能提高了30%。
代理系统性能：Agentic-Tx在ChemBench、GPQA和HLE基准测试中表现出色，分别在ChemBench偏好任务和HLE化学与生物学任务上实现了9.8%和14.5%的相对改进。
数据效率：在TrialBench的严重不良事件预测数据上进行微调时，TxGemma-27B-Predict在不到10%的重新训练数据下达到了与基线Gemma-2-27B相当的性能。

总体结论

这篇论文介绍了TxGemma，一套高效的通用大型语言模型，旨在改进药物研发。通过利用广泛的治疗指令调优数据集并基于Gemma-2进行训练，TxGemma在广泛的预测和生成治疗任务中表现出色，超过了现有的通用和专用模型。TxGemma的对话模型提供了推理和解释能力，填补了通用LLMs和专业属性预测器之间的差距。Agentic-Tx展示了LLMs在协调复杂工作流程中的潜力，解决了LLMs在知识截止方面的局限性。通过开放模型的发布，TxGemma促进了研究社区和科学家对其适应和验证，推动了药物发现和开发的进步。

论文评价

优点与创新

高效的通用治疗LLM
：TxGemma代表了从任务特定AI向治疗开发中高效通用模型的转变。这些高效的LLM（2B-27B参数）提供了比专用模型更具竞争力的选择，在广泛的预测和生成任务中表现出色。
可解释和交互式治疗模型
：TxGemma-Chat引入了推理和解释能力，弥合了通用LLM和专用属性预测器之间的差距。科学家可以通过自然语言与TxGemma-Chat互动，探索复杂问题，接收基于分子结构的预测解释，并参与科学讨论。
代理系统协调治疗开发工作流程
：我们进一步介绍了Agentic-Tx，一个由Gemini 2.0驱动的治疗重点代理系统，展示了如何将TxGemma模型集成为工具。配备18个工具的Agentic-Tx解决了复杂的多步骤问题，在推理密集的化学和生物学基准上取得了最先进的成果。
开放式模型促进创新研究
：理解治疗研究中专有数据的普遍性，我们将TxGemma的集合作为开放式模型发布，以赋予研究人员根据其自己的数据适应和验证它们的权力。这促进了更具挑战性的现实世界应用中的治疗安全性和有效性。

不足与反思

缺乏真实世界的实验验证
：尽管我们在各种治疗任务上的体外结果非常鼓舞人心，但我们承认TxGemma的性能尚未在真实世界的湿实验室实验中得到验证。将这些结果转化为现实世界的治疗应用的关键下一步是前瞻性验证。
解释性的局限性
：尽管TxGemma-Chat能够为其预测提供推理，但这是治疗AI中的首次尝试，可能会因“灾难性遗忘”而失去一些原始预测能力。尽管解释可能会引入一些预测能力的权衡，但它提供了一个关键的窗口，可以洞察模型的决策过程，这在治疗开发中至关重要。
知识边界的挑战
：TxGemma-Chat偶尔无法解释某些预测，揭示了其知识边界。未来研究应优先考虑提高可靠性和全面的解释。
数据效率的进一步验证
：尽管我们在TrialBench上的微调实验显示了TxGemma的数据效率，但在治疗领域，数据通常是专有的且有限的。因此，需要进一步验证TxGemma在数据有限情况下的性能。

关键问题及回答

问题1：TxGemma的对话模型TxGemma-Chat在推理和解释方面有哪些具体功能？

TxGemma-Chat是TxGemma套件中的一个对话模型，它引入了推理和解释能力，填补了通用大型语言模型（LLMs）和专业属性预测器之间的差距。具体功能包括：

自然语言交互
科学家可以通过自然语言与TxGemma-Chat进行交互，提出复杂的问题并获取答案。
预测解释
TxGemma-Chat能够为其预测结果提供解释，例如，基于分子结构解释为什么某个药物能够穿过血脑屏障。
多轮对话
模型支持多轮对话，能够在用户提出后续问题时，继续提供相关的解释和推理。
教育潜力
TxGemma-Chat不仅有助于科学研究，还具有重要的教育潜力，能够帮助研究人员和学生探索复杂的治疗概念。

问题2：Agentic-Tx代理系统在药物研发中如何利用其18个工具来解决复杂的多步骤问题？

Agentic-Tx是一个以药物研发为中心的代理系统，它利用ReAct框架进行推理和行动。具体方法包括：

模块化工具使用
Agentic-Tx配备了18个工具，涵盖药物发现和发展的各个方面，如毒性预测、分子描述、基因和蛋白质信息等。
迭代推理过程
代理系统接收任务或问题后，会迭代地采取动作，使用相应的工具进行推理和数据收集。每个工具返回的观察结果被总结以维持简洁和相关的上下文。
动态调整
根据收集的信息，Agentic-Tx能够动态调整其方法和工具，以逐步逼近问题的解决方案。
用户友好响应
最终，Agentic-Tx将收集的信息整合并生成用户友好的响应，提供综合性的答案和建议。

问题3：TxGemma在数据效率方面有哪些具体表现？如何在有限的数据下实现高效的模型微调？

数据效率
在TrialBench的严重不良事件预测数据上进行微调时，TxGemma-27B-Predict在不到10%的重新训练数据下达到了与基线Gemma-2-27B相当的性能。这表明TxGemma在数据有限的情况下仍能实现高效的模型微调。
零样本和少样本提示策略
在训练过程中，TxGemma采用了70%的零样本提示和30%的少样本提示策略，这种策略促进了模型在少量数据下的学习能力和泛化能力。
评估时使用10样本提示
在评估模型性能时，使用10样本提示从训练和验证集中选择最近邻样本，进一步提高了模型的评估准确性和鲁棒性。
数据增强
通过对训练数据进行适当的增强和混合，TxGemma能够在有限的数据下更好地捕捉任务特征，从而实现高效的模型微调。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。