百川医学大模型：患者模拟器探索诊断与询问之间的关系

在线医学咨询（OMC）[3, 15]作为一种新兴的医疗服务形式，极大地增强了寻求医疗服务的便利性，特别是在医疗资源不足的地区。然而，与传统面对面咨询相比，在线咨询存在显著的局限性。由于缺乏直接的体格检查和辅助诊断工具，医生必须仅依赖患者的描述和问题以收集相关信息。这种方法限制了对患者健康状况的全面评估，显著增加了诊断的复杂性。图1：使用相同的患者记录和医生模型，比较我们的患者模拟器（如图右侧所示）

程序员笑武

1296人浏览 · 2025-01-21 13:59:20

程序员笑武 · 2025-01-21 13:59:20 发布

摘要

在线医学咨询（OMC）限制医生仅通过询问收集患者信息，使诊断这一本已复杂的顺序决策过程变得更加具有挑战性。最近，大型语言模型的快速发展展示了改变OMC的巨大潜力。**然而，大多数研究主要集中在在相对充分信息条件下提高诊断准确性，而对咨询过程中的“询问”阶段则给予有限关注。**这种缺乏关注导致“询问”和“诊断”之间的关系尚未得到充分探讨。在本文中，我们首先从真实的医生患者对话中提取真实患者互动策略，并利用这些策略来指导训练一个紧密模拟现实行为的患者模拟器。通过将医疗记录输入我们的患者模拟器以模拟患者回复，我们进行了大量实验，以探索在咨询过程中“询问”和“诊断”之间的关系。

1 简介

图1：使用相同的患者记录和医生模型，比较我们的患者模拟器（如图右侧所示）到基线患者模拟器（GPT-4o上的提示工程，如图左侧所示）。在线咨询对话分为询问和诊断阶段，图中D代表医生，P代表患者。基于在本文中概述的预定义对话策略集中，突出显示了我们的模型输出的对话策略紫色。我们的模拟病人的输出可能包含情绪或主动问题，标记为绿色。相比之下，基线往往在第一轮中提供更全面的症状，并伴有额外的症状和结果显著差异以红色突出显示。这些维度表明，我们的模型更接近真实患者。

我的左眼已经疼了好几天了，而且变成了蓝紫色。我真的很害怕。这个能治疗吗？

[伴随症状]你的症状确实需要引起重视…请问，除了疼痛和颜色变化，是否还有其他症状，比如流泪、眼部分泌物、畏光等？

关于伴随症状的询问…

除了疼痛和颜色变化外，您是否有其他症状，如视力模糊、眼部分泌物或对光敏感？

我没有发热，身体其他方面感觉还好。现在看我这个严重吗？

[诊断,医疗建议]您目前的症状可能是虹膜睫状体炎、葡萄膜炎，鉴于症状严重且持续加重，建议尽快到眼科就诊，以下是具体建议：…

您目前的症状可能是虹膜睫状体炎或葡萄膜炎。由于症状严重且正在恶化，您应尽快就医眼科专家。以下是一些建议：…

[感谢,寻求建议]好的，谢谢医生！我尽快去医院。如果在路上感到疼痛加剧，应该怎么办？

谢谢，医生！我会尽快去医院。如果在路上疼痛加剧了，我该怎么办？

[医疗建议]您可以采取以下措施：1. **闭上眼睛**：… 2. **避免揉眼**：… 3.

**使用冷敷**：… 4. **保持镇静**：…尽快到医院检查和治疗。祝您早日康复！

D[医疗建议]1.闭上眼睛：… 2.不要揉眼睛：… 3.使用冷敷：… 4.保持冷静：…尽快去医院进行检查和治疗。祝您早日康复！[停止]谢谢医生，我会注意的，再见！

谢谢医生，我会小心的。

再见！

1 前言

近年来，大型语言模型（LLMs）在各个领域和任务中展示出了显著的能力。值得注意的是，诸如OpenAI的o1 [22]等模型通过采用类似内化思维链[35]过程的技术，引入了开创性的推理能力。在建立在通用LLMs核心优势基础上，也出现了面向医疗保健的领域特定模型[6, 25, 28, 32, 39]。在临床医学领域，许多研究[12, 13, 19, 26, 34, 36]验证了这些模型的表现，表明它们在医疗实践中具有变革性应用的潜力。例如，在MedQA（USMLE）基准[12]上，像GPT-4 [1]结合了MedPrompt [20]，Med-Gemini-L 1.0 [25]和o1-preview [36]等模型已经达到了超过人类专家水平的表现水平。

然而，大多数医生模型侧重于在相对充分信息条件下提高诊断准确性，这显然与在线咨询中面临的主要挑战不同。OMC可以分为两个关键阶段：“询问”和“诊断”。现有研究相对较少关注“询问”阶段，这种疏忽阻碍了对“询问”和“诊断”之间关系的深入理解。尽管一些研究[16, 17, 24, 26, 34]已尝试通过模拟临床环境来评估或改进医生模型。这些研究使用提示工程来构建患者代理，但模拟结果与真实患者的行为存在显著差异。例如，现实生活中的患者在回答问题时可能会表现出对自身状况的关注和焦虑。在描述症状时，他们倾向于急切地传达他们最关注的症状，而不是提供所有症状的综合列表。此外，真实患者可能会积极提出问题以缓解情绪。此外，现实生活中的患者并不总是能够耐心地回答问题。如果医生（尤其是医生代理）一再提问，真实患者可能会决定退出对话或拒绝回答。不幸的是，单凭提示工程难以有效解决这些问题，需要探索一种新颖的模拟患者的范式。另外，据我们所知，已经提供动态模拟环境的现有研究尚未彻底调查“询问”和“诊断”之间的关系及其对整体结果的影响。

本文从真实的医生-患者对话中提取患者对话策略，以指导开发一款与实际交互密切相关的患者模拟器。首先，我们使用LLMs对开放源实际医生-患者对话进行注释和标准化，然后总结一组患者对话策略。从这组中，我们手动选择符合特定标准的策略，比如确保对话轮完整，并优先考虑初诊而排除随访。在选择后，由于可用培训数据有限且缺乏对应的医疗记录，我们使用上下文学习合成医生-患者对话数据。具体来说，我们的合成使用两种输入：1.各种格式的疾病病历记录（类似于MedQA中的上下文）；2.从策划组合中随机选择的对话策略。最终，我们完全使用这些合成的医生-患者对话数据以及相关医疗记录来训练我们的模型。经过评估，我们的患者模拟器在对话和医疗记录的一致性方面表现出较低的幻觉率，尽管无关响应的比率稍高。此外，包括情感和对话策略在内的拟人化有显著改善。值得注意的是，稍高的无关响应率并不一定表示模型性能较差，因为实际患者也表现出某种拒绝回答的程度。我们的无关响应主要发生在对话结束时，特别是当医生模型提出大量问题时，促使患者模拟器主动提问而不是直接回答。

基于我们的患者模拟器，我们进行了大量实验来探讨“询诊”和“诊断”之间的关系以及它们对最终诊断准确性的影响。具体地，我们利用我们的患者模拟器固定患者模拟，同时通过不同的医生模型与这个模拟器互动固定次数的回合生成询诊记录。随后，通过多种医生模型对每个询诊记录进行诊断。通过分析不同医生模型产生的询诊的诊断准确性，我们发现一些模型无论是哪种医生模型进行诊断，都会持续产生具有显著高或低准确性的询诊。这表明不同医生模型生成的询诊存在显著差异。此外，当比较相对高质量和低质量的询诊，并观察在被具有明显不同诊断能力的医生模型诊断后的准确性差异时，我们认为“询诊”和“诊断”之间的关系遵循李比希法则。换句话说，如果询诊的质量不足，仅靠强大的诊断能力是不足以取得良好结果的，反之亦然。

进一步分析不同医生模型之间询问流程的差异，我们将查询分为四种类型：

(1)主诉询问；(2)已知症状的具体描述；

图2：合成患者模拟培训对话的提示。

(3)探询有关伴随症状的情况；(4)搜集家族或医疗史。我们针对不同的询诊模型计算这四种类型的询诊记录分布。通过比较这些模型之间的分布差异和诊断准确性，我们揭示了某种相关性。例如，当一个模型询问更多问题以明确已知症状时，从而导致其他类型的询问相对较少，最终的诊断准确性往往会较低。因此，我们的研究结果表明，在有限的机会内有效地分配询诊（通常患者可以舒适接受3至5轮）是一个值得深入探讨的问题。

2 患者模拟器

这一部分介绍了构建我们的病人模拟器的过程，并展示了其评估结果。

2.1 方法

一些研究[16, 17, 24, 26, 34]尝试通过创建模拟临床环境来评估或增强医生模型。在这些研究中，通常使用提示工程来构建患者代理。然而，通过这种方法产生的互动与真实患者的互动存在显著差异。具体来说，真实患者在交流时可能会表现出对其医疗状况的关注和焦虑。他们倾向于在初始描述中迅速表达最让他们担忧的主要症状，而不是提供症状的详尽清单。此外，真实患者可能会积极寻求信息来缓解情绪困扰。此外，当回答问题时，他们不太可能无限耐心地等待。如果医生（尤其是医生代理）坚持提问，真实患者可能会选择终止对话或拒绝回答。

系统提示

你是一个正在向医生咨询的患者，你的个人信息如下:

您是一名咨询医生的患者，我的个人信息如下：

{患者记录}

Figure 3：我们的患者模拟器的系统提示。

可惜，很明显这样真实的患者行为很难通过快速工程复制。

为了尽可能准确地模拟真实患者，需要依赖真实的医患对话数据集。在本文中，我们利用了MedDialog [38]数据集。首先，我们进行基础数据筛选，排除非咨询记录（如患者排班和注册），选择完整的初始咨询对话。然后，我们手动提供了一组常用的在医患互动中发现的对话策略标签种子集。我们利用GPT-4o [21]对此种子集进行扩展，得到候选对话策略标签集（见附录A）。基于候选对话策略标签集，我们进一步利用GPT-4o对所选的完整初始咨询对话进行标注。每个对话的标签按顺序连接起来形成对话策略流。最后，从去重的集合中手动选择高质量的对话策略。例如，以下是选定的对话策略流：[医生:问候]，[患者:问候]，[医生:主诉询问]，[患者:提供信息]，[患者:表达关注]，[医生:收集家族或病史]，[患者:提供信息]，[医生:评估]，[医生:解释]，[患者:请求解释]，[医生:回答]，[患者:寻求建议]，[医生:医疗建议]，[患者:讨论治疗选择]，[医生:安排]，[患者:寻求帮助]，[医生:医疗建议]，[患者:感谢]，[医生:再见]，[患者:结束]。

由于在选择后用于训练的可用患者医生对话数据有限，并且缺乏相应的医疗记录，我们合成患者医生对话数据以促进训练过程。我们利用CCKS 2019发布的中文医疗记录数据集作为医疗记录的候选集。在每个数据合成迭代中，随机选择一份医疗记录，并从策划的对话策略流集中随机选择一个对话策略流。通过上下文学习，我们合成符合所选对话策略流的患者医生对话。有关详细提示，请参见图2。

这种合成的医生-患者对话的格式显示在图1的右侧。每一轮医生和患者之间的对话之前都有几个对话策略标签。我们完全基于这种合成的医生-患者对话数据集构建了一个监督微调（SFT）数据集。具体而言，在训练和预测阶段，我们的患者模拟器只需要将患者医疗记录输入到一个简单的系统提示中（见图3）。给定一个医生-患者对话{𝑑1, 𝑝1,𝑑2, 𝑝2, . . . ,𝑑𝑛, 𝑝𝑛}，其中𝑑𝑖代表第i轮医生对话，𝑝𝑖代表第i轮患者对话。我们将其分成𝑛个SFT数据实例，即，

{𝑑1, 𝑝1}, {𝑑1, 𝑝1,𝑑2, 𝑝2}, …, {𝑑1, 𝑝1, . . . ,𝑑𝑛, 𝑝𝑛}. {d1, p1}，{d1, p1, d2, p2}，…，{d1, p1, . . . ,dn, pn}.

注意，对于每个SFT数据实例，我们仅保留标签的对话策略标签（患者对话的最后一轮）。前面对话中的策略标签将被移除。这是为了与患者模拟器的预估场景对齐，因为我们不期望医生模型输出我们的对话策略标签。模型需要学习在上下文中没有对话策略标签的情况下预测适当的对话策略和要传达的内容。我们在Qwen2.5-72B-Instruct [37]模型上训练患者模拟器的LoRA [10]权重。最后，我们计划在https://github.com/LIO-H-ZEN/PatientSimulator开源权重和相关代码。

2.2 评估结果

表1：基于我们定义的幻觉率（HR）、无关回应率（IRR）和拟人化评分（AS）对不同患者模拟器的评估结果。最后一行呈现了样本检查得出的GPT-4o的表现与这三个指标下人类评估之间的一致性结果。

为了评估我们的病人模拟器的训练状态，并将效果与基准[26]进行比较，我们进行了广泛的实验。我们首先考虑真实生活场景，并设计了一组简洁实用的病人模拟器指标，主要包括以下三个指标：

幻觉率（HR）：患者在对话中产生与医疗记录矛盾的回应比例。通过输入医疗记录和每一轮对话内容，GPT-4o会分配一个得分（0或1），当得分越低时，计算出的比例显然更好。

1.无关回应率（IRR）：患者在对话中未回答医生提出的问题时的比例。它涉及输入医生的询问和患者的回应，GPT-4o给出0或1的分数。由于现实患者中也存在一定程度的无关答案，这个指标并不一定需要尽量低，而是在应用过程中作为一个参考值。

2.**人格化得分（AS）：**分析患者智能体在对话中表现出的人格化行为，如表达情感、主动提问以及回复中口语化程度。它由GPT-4o按0到1的标度评分，值越接近1表示人格化水平越高。

图4：使用LLMs评估对话中诊断准确性的工作流程。

我们的病人模拟器与Qwen-72B-Instruct进行比较。

AgentClinic \[26\]，后者通过在GPT-4上进行提示工程实现患者代理。前者用于评估我们的培训过程，后者则用于评估我们患者模拟器的模拟效果。AgentClinic利用多个有偏见的提示，可能会干扰HR和IRR结果；因此，这些有偏见的提示被排除在我们的实验之外，仅保留AgentClinic中用于患者代理的基本系统提示。另外，由于Qwen2.5-72B-Instruct不包含任何系统提示，因此难以模拟患者场景。为确保一致性，Qwen2.5-72B-Instruct还采用了AgentClinic中使用的相同系统提示。

实验结果如表1所示，表明我们的患者模拟器在幻觉率方面明显优于所有基线方法。这可能是由于我们在训练过程中在系统提示中包含了患者的医疗记录，而基线方法依赖于提示工程。从IRR的角度来看，与我们的训练起点（Qwen2.5-72B-Instruct）相比，我们的方法实现了显著更低的数值。然而，我们的方法的IRR明显高于基于GPT-4的AgentClinic。这种差异可能来自于基础模型的不同，以及所选择的对话策略流，患者选择主动提问而不是回应医生的询问。需要注意的是，较低的IRR并不一定更好，只应将其视为一个参考指标。最后，就AS而言，我们的模型明显优于所有基线，证实我们的训练范式能够成功地引导模型模拟逼真的对话策略流，类似于真实患者。为了验证GPT-4o的提示工程中实施的指标的可靠性，我们进行手动随机抽样检查，并计算它们与人类评估的一致性。正如表1的最后一行所示，我们实施的三个指标表现出足够的可靠性。

3 询问与诊断之间的关系：对诊断准确性的影响

我们旨在利用我们的病人模拟器，探索“询诊”与“诊断”之间的关系，以及它对最终诊断的准确性的影响。本节提供了实验设置的详细描述及其结果。

3.1 实验设置

表2：用于查询和诊断的模型分布。

首先，我们描述OMC的情景。如图所示。

只有两个角色：医生和患者。整个过程始于医生通过询问收集患者信息，然后进行诊断和提供建议。在实践中，这些询问通常涉及多轮，我们将其标记为𝑛轮。然而，询问的轮数不应过多；通常，最多进行5轮的询问对患者来说是可以接受的。诊断通常在第(𝑛 + 1)轮进行。随着医生和患者之间进一步地讨论，诊断可能会在后续的轮次中更新。

其次，为了简便起见，我们将查询设置为𝑛轮（1 ≤ 𝑛）。

在我们的实验中，我们对𝑛值为1、2、3、4和5进行了测试。病人方始终使用我们的病人模拟器，医疗记录由AgentClinic的MedQA-Extend提供。在医生方面，不同的询问模型与病人模拟器互动，固定进行𝑛轮以生成询问记录。随后，不同的医生模型被用来对这些询问记录进行诊断。询问和诊断所使用模型的具体分布如表2所示。o1-mini和o1-preview仅参与诊断，因为这些模型具有更强的推理能力，更适合用于诊断目的。

第三，为了解决不同诊断模型输出格式的变化，从而便于使用LLMs准确计算诊断准确性，我们设计了一个工作流程（如图4所示）。这个过程始于输入完整的对话内容，随后提取诊断结果。这些结果经过必要的修改后，再与标准真相（GT）进行比较。这些修改的主要目的是避免由于别名或疾病名称细微差异导致的假阴性。诸如结果提取、修改和比较之类的任务是LLMs中最常见的任务之一，并且即使没有复杂提示，也可以产生初步结果。在实践中，取得满意结果的关键在于构建一个稳健的测试集，并进行多次迭代（例如，示例和说明的迭代）。通过抽样检查，我们的工作流程与人类评估之间的不一致性保持在1%以下。

3.2 实验结果

图_5__：患者一直使用我们的患者模拟器，医生最初使用不同的模型与模拟器交互，进行固定的__n__轮（__x__轴，n__值为__1、2、3、4、5）以生成查询记录。然后使用不同的医生模型诊断这些记录，并计算诊断准确性（_y__轴）。

我们的实验结果呈现在图5中。患者始终使用我们的患者模拟器，而医生们则使用各种模型与模拟器互动固定次数（x轴，其中n值为1, 2, 3, 4, 5）来生成询问记录。随后，这些记录由五种不同的医生模型进行诊断，如表2所示，并计算诊断准确性（y轴）。

首先，我们分析图5左上角的第一个子图之外的Subfigure 2至6。这五个子图展示了经过五种不同诊断模型处理的同一三组查询的准确率。通过逐个检查每个子图，很明显在相同的查询轮数和诊断模型下，不同模型生成的查询的准确率存在显著差异。例如，在Subfigure 6中，在经过5次查询轮数并在o1-preview诊断模型下，Claude，GPT-4o和GPT-4o-mini的准确率分别为0.439，0.481和0.5 [21]。此外，在所有五个子图中，由模型claude-3-5-sonnet生成的查询始终表现出相对较低的准确性水平，无论使用何种诊断模型。这表明不同模型之间存在着显著的查询能力差异。

其次，通过比较图2至6中相同询问轮次和模型的准确率，我们发现不同模型展现出不同的诊断能力。其中，o1-preview展示了最强的诊断能力，而GPT-4o-mini表现最弱。这一结果与模型固有的推理能力相一致，符合直觉预期。进一步整合诊断和询问能力的表现，观察到二者之间没有显著相关性。例如，虽然GPT-4o-mini的诊断能力较弱，但在询问任务中表现相对良好，而GPT-4o在两者方面表现出色。

你好！请问您能告诉我您正在经历哪些症状吗？

最近我经常出现视力模糊和爬楼梯时感到虚弱。

已知DDoS攻击规格：您是否感到在某个特定领域或全身上出现了虚弱症状

关于询问

伴随症状你有头痛、头晕或其他神经问题吗？

聚集家人或

病史：您是否被诊断出患有其他任何疾病？肌肉或神经相关问题

图6：图中D代表医生，P代表患者，展示了四种询问类型的示例。

根据观察，这表明在开发医疗人工智能模型时，如果单一模型在探寻和诊断能力方面表现出困难，将任务分为两个专业模型可能是一种可行的解决方案。

首先，将Subfigure 2与Subfigures 3至6进行相同的查询轮次和模型比较发现，Subfigure 2中的准确率明显低于Subfigures 3至6。这是由于GPT-4omini的诊断能力较弱，导致最终准确率的上限较低。相反地，将Subfigure 6与其他图像在相同轮次和查询模型下进行比较显示，Subfigure 6在准确率方面超越其他图像。这归因于o1-preview的优越诊断能力，导致了更高的上限。从Subfigures 1和3到6的观察表明，随着更多的查询轮次，诊断准确性显著提高。此外，无论使用哪种诊断模型，基于Claude的查询记录始终表现不佳。因此，我们得出结论："查询"和"诊断"遵循Liebig定律：如果查询的质量不足，即使具有强大的诊断能力，取得良好的结果也是具有挑战性的，反之亦然。

4模型之间的询问差异

为了更好地分析各种询问模式之间的差异，我们进一步研究了GPT-4o、GPT-4o-mini和Claude-3-5-sonnet在五轮对话中的询问记录。利用现有的对话策略标签和来自AI医生问诊内容，我们将医生的询问分为四类：（1）主诉询问；（2）已知症状的具体说明；（3）有关伴随症状的询问；（4）收集家庭或医疗史。

4.1 四种研究类型

根据我们调查记录中的例子和相关医学资料中的系统描述[2, 5, 29, 33]，图6中提供了四种类型的例子，下面对这些类型进行详细讨论：

主诉询问：这是指询问患者关于他们最明显的不适、最显著的症状或体征，这些通常代表就诊的主要原因。一个准确的主诉提供了疾病的严重性和紧迫性的初始指示，并为识别潜在的全身性疾病提供了诊断线索。

已知症状的规范化说明

疾病的发病和持续时间：每种疾病在其发病和进展方面都具有独特的特征；因此，详细了解疾病发作的时间对于进行鉴别诊断是至关重要的。一些疾病具有急性发作，如脑栓塞，而另一些疾病进展较慢，如肺结核。疾病持续时间指的是从疾病发作到临床咨询或住院的时间。如果出现多个症状，重要的是追溯到最初症状发作的时间，并按时间顺序记录完整的病史。例如，患者可能出现心悸已有3个月，且连续2周夜间呼吸困难。

主要症状的特征：位置，性质。

症状的持续时间、强度，以及缓解或加重症状的因素，对于诊断受影响的系统或器官，确定病理变化的部位、范围和性质至关重要。例如，上腹部疼痛常常指向胃、十二指肠或胰腺问题，而右下腹急性疼痛通常暗示阑尾炎。疼痛的类型——灼热、绞痛、胀痛或钝痛——以及症状是持续的还是间断的，起病和缓解的模式，对诊断具有重要意义。

根据主要症状询问伴随症状：基于主要症状，通常会出现一系列伴随症状。这些伴随症状对于鉴别诊断或指示可能的并发症至关重要。例如，腹泻可能是各种潜在原因的常见症状，仅根据这一症状很难诊断出特定疾病。然而，通过询问伴随症状，诊断方向会变得更加清晰。例如，腹泻伴随呕吐可能暗示由食用受污染食物或毒性物质引起的急性肠胃炎，而腹泻伴有未排空感，在考虑季节性和饮食习惯时，更有可能与痢疾相关。

获取家庭或医学史：

家族史：重要的是问及家庭成员的健康和病史。

患者的父母、兄弟姐妹和子女的疾病情况应该引起特别关注。特别要注意是否存在与患者相似的疾病，或遗传病，如血友病、白化病、家族性甲状腺功能减退症、糖尿病和精神疾病。

诊断和治疗历史：如果患者已经……

在就诊前曾在其他医疗机构接受过治疗的情况下，必须询问之前的诊断、治疗措施及结果。如果已经接受过治疗，就需要全面了解使用的药物，包括药名、剂量、持续时间和效果，以便为目前的诊断和治疗计划提供信息。

图7：比较集中在GPT-4o、GPT-4o-mini和Claude-3-5-sonnet作为查询模型，在查询轮次方面的四种查询类型分布上。横轴代表查询模型，纵轴表示查询轮次。

四种查询类型的比例。

过往病史（PMH）: 过往病史包括患者以往的病史。

健康状况和先前诊断的疾病，包括传染病、受伤情况、手术记录、免疫接种记录和过敏史，特别强调与当前疾病密切相关的因素。

4.2 实验结果

我们使用GPT-4o对询问记录进行注释，分为上述四种类型，并使用附录B中详细说明的提示。我们的实验结果显示在图7中。按照询查轮次分割，比较重点是四种询查类型在GPT-4o、GPT-4o-mini和Claude-3-5-sonnet作为询查模型中的分布。横轴代表询查模型，纵轴表示四种询查类型的比例。

首先，正如图7的子图1所示，在绝大部分情况下，所有查询模型都选择在第一轮询问中询问主诉。这符合预期，因为在初始轮询期间医生模型没有关于患者的任何信息，因此通常会以类似“您今天出现了什么症状导致您前来就诊？”的问题开始。然而，也有一小部分查询涉及到其他问题。

关于伴随症状，特别是在使用GPT4o-mini和Claude时。这些初始问题通常包括：“你好，你最近有没有感到不舒服，比如发烧、咳嗽或其他不舒服的感觉？”或者“早上好，你看起来有点苍白，你有没有出现眩晕、疲劳或食欲减退等症状？”尽管这些实例是否应该被标记为询问伴随症状仍存在争议，但比较显示这些询问确实干扰了对患者主诉的收集。这可能是为什么GPT-4o在图5的子图2至6中始终在第一轮表现最佳的主要原因。

其次，在图7的子图2-5中展示，Claude在多轮询问过程中表现出对已知症状的具体说明比其他模型要高得多。这导致其他询问类型的比例明显减少。考虑到每种类型的询问对诊断过程至关重要，我们假设这可能表明Claude在整体询问能力上相对于其他模型存在相对弱点。对应地，在图5的子图2-6中，由Claude生成的询问记录通常与最终诊断准确性最低相关。此外，当比较GPT-4o和GPT-4o-mini时，后者一直在多轮中展示出更高比例的收集家族或医学史（第四轮除外）。根据图5的子图6（其中o1-preview用作诊断模型），从第三轮开始家族史对诊断准确性的贡献变得明显。对子图6的关注具体是因为o1-preview在所有模型中展示出最强的诊断能力，这让我们能够最大程度地减少不同诊断表现水平带来的混淆影响。

5 相关工作

5.1 医学中的大规模语言模型

在医学领域，大型语言模型（Large language models，LLMs）被分类为两种类型：通用型LLMs和医学专用模型。通用型LLMs进一步分为开源和闭源两类。开源模型的例子包括LLaMA [7]，Qwen [37]，Mixtral [11]和DeepSeek [18]，而闭源模型包括GPT-4o [21]，o1-preview [22]，Claude [4]和Gemini [31]。优化通用型LLMs的主要目标是增强其广泛适用性，确保在各种任务中表现良好，包括医学任务。在通用型LLMs的核心优势基础上，许多研究人员专注于开发医学领域的专用模型。这些模型通过及时工程、持续预训练、监督微调（SFT）和强化技术来提高在医学领域的性能。[6, 25, 28, 32, 39]

5.2 在医学中语言模型的评估

在医学领域评估LLM（语言模型）的基准可以根据它们是否提供模拟环境分为静态和动态类型。

静态基准主要评估医学知识，通常采用多项选择格式。MedQA数据集包含从美国、中国大陆和台湾医疗执照考试中获取的医学问答对。它包含4-5个带有正确答案的多项选择问题，并附有解释或参考文献支持。这些问题涵盖了从诊断到治疗选择的内容，即使对于医学生来说也常常具有挑战性。LLMs获得全面的上下文信息，包括患者病史、人口统计信息和症状，生成回答。PubMedQA、MedMCQA、MMLU临床主题和MultiMedQA也采用类似的多项选择格式。

动态基准测试通过涉及医生和患者的角色扮演场景，利用LLMs评估医生模型的表现。AMIE [34]通过病史采集诊断模拟患者。AgentClinic [26]是一个开源的多模态基准测试，旨在评估LLMs作为模拟临床环境中代理人的能力。此外，许多其他研究[14, 16, 17, 24, 30]提供模拟临床环境来评估或增强医师模型。然而，在这些研究中，患者模拟主要依赖于提示工程，无法准确复制真实患者行为。与被动模拟反应不同，真实患者通常会对自己的状况表达焦虑，提出问题以缓解担忧，并且可能并不总是配合。如果医生反复质问他们，他们可能会中断对话或拒绝回答。此外，据我们所知，值得注意的是，在提供动态模拟环境的现有研究中，对“询问”和“诊断”之间关系以及其对整体咨询结果的影响的深入探讨仍然很少。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述