本篇博客介绍一篇发表在2024 ACL main上的文章:《LLMs Learn Task Heuristics from Demonstrations: A Heuristic-Driven Prompting Strategy for Document-Level Event Argument Extraction》

        方向:大模型事件抽取

        本篇博客为个人阅读论文的总结与笔记,在这里进行简单的分享

        论文链接:https://arxiv.org/abs/2311.06555

摘要

        在本研究中,我们探索了上下文学习(ICL)在文档级事件参数提取(EAE)中的应用,以减轻该任务对大规模标记数据的依赖。我们引入了为EAE任务量身定制的启发式驱动类比链接(HD-LoA)提示。具体来说,我们假设并验证LLMs从ICL的演示中学习任务特定的启发式。在此假设的基础上,我们引入了一种显式启发式驱动的演示构建方法,该方法将随机示例选择过程转换为强调任务启发式的系统方法。此外,受人类类比推理的启发,我们提出了类比链接提示,这使得LLMs能够通过与已知情况进行类比来处理新情况,从而提高了它们在有限的ICL示例之外的未知类上的性能。实验表明,该方法在文档级EAE数据集上优于现有的提示方法和少量监督学习方法。此外,HD-LoA提示在情感分析和自然语言推理等其他任务中也显示出有效性,显示了其广泛的适应性。

一、简介

        文档级事件参数提取(EAE)旨在将文档中的非结构化事件信息转换为封装事件参数的结构化格式。该任务的流行方法依赖于标记数据的收集和随后通过监督学习进行的模型训练,这种方法虽然有效,但也有一个明显的缺点:它需要大量的训练数据,考虑到文档级EAE固有的复杂性,这是特别繁重和昂贵的。

        情境学习(ICL)是大型语言模型(LLMs)的一种新兴能力,为监督学习提供了一种替代方案。ICL减轻了对大规模数据的需求,因为它只使用几个示例作为提示的输入-输出对,以指导LLMs在看不见的示例上执行任务。

ICL挑战:

        1)例子选择。为ICL选择最佳的上下文示例是至关重要的,然而LLMs从这些示例中学到什么仍然在很大程度上没有得到充分的探索。这一差距导致缺乏系统的指导方针,导致一个混乱和低效的例子选择过程。

        2)上下文长度限制。在文档级EAE中,选择多个文档作为ICL示例可以扩展上下文长度,可能超过LLMs的令牌限制。

        3)事件类型丰富。EAE任务可以涉及一百多个不同的事件类型和参数角色。然而,ICL示例只能捕获一个狭窄的子集,而忽略了大多数参数角色。在具有不同类类型的分类任务中,处理超出有限ICL示例的未见类是一个常见问题。

        4)非推理任务提示策略。思维链(CoT)提示是在各种任务中广泛使用,其有效性在非推理场景中受到损害。如图1所示,将CoT应用于非推理任务会将其逐步推理降级为可能不充分的单步骤。

        因此,有必要为非推理任务量身定制提示策略。

图1:对于非推理任务,CoT的分步推理退化为单步推理。比较推理任务(橙色)和非推理任务(蓝色)的推理步骤。不同的颜色表示不同的推理步骤。

        左边就是一步步推理,右边给予者与捐赠简单推理&虚假推理不合逻辑。

提出启发式驱动的类比链接提示,应对上述挑战:

        我们提出并实证验证了LLMs从ICL中的示例中学习任务特定启发式的假设。启发式,被定义为“推断特定任务答案的高级规则或策略”,在人类认知中起着至关重要的作用。人类使用启发式作为有效的认知途径,这通常比复杂的方法导致更准确的推断。

        类似地,在监督式机器学习(ML)系统中,模型也通过训练学习特定于任务的模式。与此类似,我们假设LLMs从上下文示例的解释中学习任务特定的启发式,以帮助推理。我们定性地说明了2中启发式是如何隐含地嵌入到上下文示例的解释中的,并通过第2节中详细的实验定量地验证了我们的假设。ICL在机制上与监督式ML有根本不同:监督式ML在训练期间学习和更新模型参数,而LLMs在所有参数冻结的情况下进行ICL。因此,对监督式机器学习系统(例如模式学习)的理解不适用于ICL

图2:启发式隐含地嵌入在上下文示例的解释中

        ①giver是人或组织;主语-动词-对象的启发②比较两者进行启发;使用知识启发,已知游戏节目事实回答

        提出了一种启发式驱动的示范构建方法。根据我们的假设,任务启发式对LLMs的ICL性能至关重要,但它们通常通过示例隐含地传达。这种隐含性使检验演示是否包含不同的启发式变得复杂,并导致LLMs是否认识到这些启发式的不确定性。此外,对于ICL来说,上下文示例的选择仍然是一个未被充分探索的挑战。为了解决这些问题,在人类利用显式启发式的同时,我们的方法明确地将任务启发式纳入演示中,将随意的示例选择过程转变为强调任务启发式的系统方法

        提出了适用于非推理任务的类比链接提示方法。为了解决上述EAE中事件类型丰富的挑战以及CoT提示在非推理任务中的局限性,我们提出了类比链接提示。受类比推理(人类认知的核心机制)的启发,这种方法使LLMs能够通过类比已知情况(已知类别)来处理新情况(新类别)。实验结果证明了它在增强ICL示例中未见的类的ICL性能方面的有效性。

文章主要贡献:

        1.介绍了文档级EAE提示策略的开创性工作,与提示方法和少量监督学习方法相比,在两个文档级EAE数据集上显示了显着的准确性提高。

        2.调查了LLMs从ICL中学到了什么,并揭示了LLMs从ICL示例中学习任务特定启发式的新见解。

        3.提出了一种启发式驱动的示范构建方法,以任务启发式的新视角解决示例选择问题,促进ICL中的显式启发式学习。此外,我们提出了类比链接提示,它允许LLMs通过绘制已知情况的类比来处理新情况。

        4.为了进一步评估我们的方法的适应性,我们在情感分析和自然语言推理任务上验证了它,取得了显著的准确性提高

二、LLMs从示范中学到了什么?

        假设LLMs从ICL中的示例中学习任务特定的启发式,三个实验验证假设:

2.1 设计良好提示语中示例数量与启发式多样性的关系

        我们的第一个实验是基于这样的假设:如果LLMs确实从演示中学习了任务特定的启发式,那么成功的提示应该在其示例中包含各种启发式,因为这些启发式对于LLMs来说是可以学习的。为了检验这个命题,我们评估了来自已发表论文的提示中的示例数量和不同嵌入启发式的数量。

        为了客观地识别嵌入在提示中的隐式启发式的数量,我们使用GPT-4来识别每个示例的嵌入式启发式,并确定它是否是跨多个示例的共享启发式。

        询问GPT句子中是否存在启发

        例子一:海伦死了对苏斯博士影响(同理心启发式)

        例子二:驼鹿吃牛头(比较启发,比较重量大小)

        我们研究了提示中的示例数量与同一提示中的嵌入式启发式数量之间的相关性,分析了应用于三个不同数据集的六种SOTA提示方法。具体来说,研究了包括CoT (Wei等人,2022)、Automate-CoT (Shum等人,2023)、Auto-CoT (Zhang等人,2023)、ter-CoT (Sun等人,2023)、boosting (Pitis等人,2023)、Active-CoT (Diao等人,2023)在内的提示方法,并对常识推理和算术推理的数据集进行了评估。我们在图3中的发现表明:在设计良好的提示中,启发式的数量与示例的数量密切匹配。此外,在精心构建的提示中,启发式的数量明显超过随机构建的提示。这一观察结果证实了我们的说法,即成功的提示确实在示例中嵌入了广泛的启发式。

图3:在设计良好的提示语中,例子数量与启发式多样性之间的关系。# Examples:对应论文中每个提示所使用的例子数。#Heuristics:在相应论文的每个提示中确定的启发式数量。#Heuristics in Rand:随机构造提示中启发式的平均次数

2.2 多元启发式与单一启发式策略的比较

        第二个实验从经验上评估了例子中启发式的多样性如何影响LLMsICL性能。这个实验的前提假设是,如果LLMs不能从演示中学习启发式,那么具有多个启发式的演示应该与包含单个启发式的演示产生相似的性能,因为启发式不能被利用。为了探讨这一点,我们比较了两种不同的示例选择策略。单启发式策略制定提示,其中所有示例的解释都遵循相同的启发式。相反,多元启发式策略构建提示,其中所有示例的解释都表现出不同的启发式。

        两种不同策略在StrategyQA 和SST-2 数据集上构建的提示的性能比较如图4所示。结果表明,在给定相同数量的示例时,多元启发式策略显著优于单一启发式策略,这与假设相矛盾。这一发现不仅有效验证了我们的假设,即LLMs可以从上下文示例中学习启发式,但也强调了在提高ICL性能中结合各种启发式的价值

图4:在StrategyQA和SST-2数据集上使用单一启发式策略与不同启发式策略在不同数量示例上的ICL性能比较

2.3 启发式演示对ICL性能的影响

        为了验证我们的假设,我们进一步研究了减少嵌入在演示示例中的隐式启发式的影响。如果该启发式所对应的测试样本的分类准确率相应降低,则可以验证LLMs从演示中学习了启发式。

        我们使用来自StrategyQA 数据集的500个测试样本和来自Shum等人(2023)的提示进行评估。如第2.2节所述,我们使用GPT-4来识别嵌入在演示示例中的所有隐式启发式:移情推理(ER)、比较(Comp)、基于知识(KB)、基于定义(Def)和时间顺序(Chron)启发式。隐式启发式识别和LLMs输出的提示详见附录d。然后,我们使用GPT-4用相应的启发式标记每个测试样本,这些启发式可用于指导样本的预测。接下来,我们按启发式类型对测试样本进行分组,统计数据如表2所示。最后,给定嵌入了五种不同启发式类型的提示,我们通过用包含重复启发式类型的另一个示例替换其示例来消除特定启发式类型的演示,并监控相应测试组中的性能变化。gpt-4-1106预览用于评估。

表1:原始演示与启发式演绎演示之间的性能比较(用包含重复启发式类型的另一个示例替换不同启发式类型的示例)。

        这些结果表明,消除某种启发式的演示确实会导致与该启发式相关的测试样本的显着性能下降,进一步证实了我们的假设,即LLMs学习特定任务例子启发法。有趣的是,我们还观察到,在演示示例中没有表示启发式的样本(其他样本)显示出显着较低的准确性,这不仅支持我们的假设,而且还揭示了示例选择,这表明选择包含更广泛测试样本的隐式启发式的示例可能会提高ICL性能。

三、启发式驱动的示范构建

        基于我们对ICL过程中启发式学习的理解,我们的目标是解决ICL示例选择的挑战。第2节中的实验表明,启发式对LLMsICL性能至关重要,但它们是通过示例解释隐含地传达的这种隐含性使ICL演示是否包含各种启发式的检查变得复杂,并导致LLMs是否认识到这些启发式的不确定性。此外,在解决任务时,人类不仅可以从例子中学习,还可以从启发式中学习,以获得有效和准确的推理(Gigerenzer和Gaissmaier, 2011)。这导致我们质疑LLMs是否可以类似地利用显式启发式来提高ICL性能。因此,我们有动机明确地为LLMs提供特定于任务的启发式。方法如下:

        1.用显式启发式替换示例:与传统的提示策略不同,传统的提示策略是用隐式嵌入启发式的示例来构建提示,我们建议用不同的任务特定启发式替换提示中的大多数示例,如图5中的启发式所示:


 

图5:HD-LoA提示说明(底色中给出定义作为提示)

        2.保留最小数量的示例:保留最小数量的示例以(1)说明目标任务的格式和推理步骤,例如需要一个示例来说明类比链接提示的格式,以及(2)确保提示中标签的平衡覆盖,以避免引入标签偏差。具体来说,对于文档级EAE任务,维护一个示例来演示推理格式。

        3.启发式生成:剩下的问题是如何在提示符中创建显式启发式。人工设计的启发式和LLMs生成的启发式都可以作为显式启发式。为了使这个过程自动化,我们使用GPT-4来生成一组不同的启发式S = {s1, s2,…, sn}用于文档级EAE任务。我们在这项工作中采用n = 10。在附录E中提供了启发式生成及其输出的提示符。

        4.启发式选择:考虑到并非每个生成的启发式都适合目标任务,我们引入了启发式选择步骤。生成的启发式集合S中的每个启发式被单独采用到提示符中,每个启发式的ICL性能使用训练数据集的一个子集进行评估。根据准确性选择表现最好的启发式,构成提示符中的显式启发式列表H。在这项工作中,我们采用了前3种启发式方法。通过这个启发式选择步骤,排除了低质量的启发式。

        我们的方法有三个优点:

        ①给出了示例选择过程的指导。ICL的示例选择过程通常是一个不分青红皂白的人工过程,然而我们的方法将无方向和不分青红皂白的过程转换为强调任务特定启发式的系统方法

        ②通过模拟人类认知策略,利用显式启发式来改进推理——这是一种由认知研究支持的技术(Gigerenzer和Gaissmaier, 2011)——我们的方法使LLMs也能从ICL期间的启发式学习中受益

        ③它将由输入-输出对组成的冗长示例压缩为紧凑的启发式,从而减少提示的上下文长度。

四、类比链接提示

        我们提出类比链接提示来解决以下挑战:首先,EAE任务的特点是具有广泛的参数角色和事件类型,通常超过100个,但ICL示例只能覆盖非常有限的子集。这种差异提出了一个关键的挑战:设计一个提示策略,有效地处理看不见的事件类型。值得注意的是,在有限的ICL示例之外处理看不见的类的问题是各种NLP任务中普遍存在的问题。此外,为了使启发式生成过程具体化,我们在提示符中提供了针对特定参数给予者的启发式。这就引出了如何将给予者启发式扩展到其他争论角色的问题。最后,正如引言中所强调的,将CoT提示应用于非推理任务往往会将分步分析降级为一步基本原理,需要更合适的提示策略来完成这类任务。

        在类比推理这一人类认知的核心机制的启发下,我们寻求解决所面临的挑战。人类经常通过类比熟悉的情况来理解新情况。例如,学生经常通过映射已知问题的解决方案来解决新问题。同样,我们预计LLMs将能够提取未知事件的信息,或者通过类比上下文示例中提供的事件和启发式,为未知参数角色生成启发式从经验上看,我们发现LLMs确实能够在适当的提示下进行类比推理。例如,当在提示题中提供给予者启发式:“给予者是文件中给予赠款或礼物的人、团体或组织”时,LLMs可以类比并生成目标题中论点vehicle的启发式:“[vehicle]是用于移动人或物体的运输工具”。

        为了进一步提高LLMs的类比推理能力,我们引入了模拟人类类比推理过程的LoA提示策略。认知科学研究表明,人类通过一系列检索、映射和评估来进行类比推理。与此过程一致,我们的方法包含相同的步骤。具体来说,在检索步骤中,方法:给定基本参数角色rb、一组用于识别rb的启发式方法H = {h1, h2···hk}、一个目标问题和一个目标参数角色rt LLMs将从H中选择最合适的启发式方法hb来识别rt。在映射步骤中,LLMs采用类比映射rb: hb:: rt: ht来推导rt的启发式ht。然后,LLMs根据启发式ht推断目标角色的参数。最后,在评估步骤中,LLMs将重新评估。图5所示的上下文示例说明了这种方法。

五、实验

        验证目标:启发式驱动类比链接(HD-LoA)提示的研究问题(rq)。在文档级EAE任务中,HD-LoA提示是否提高了上下文学习性能?RQ2: HD-LoA提示能否有效减轻对大量标记数据的依赖,同时提高EAE任务的准确性?当应用于EAE以外的任务时,HDLoA提示是否有效?HD-LoA提示的每个组件是否有效地促进了其性能?

5.1 实验设置

        数据集:对于文档级EAE任务的评估,我们采用RAMS 和DocEE 数据集。WIKIEVENTS数据集被排除在我们的研究之外,因为它依赖于预处理的实体候选物来注释事件参数,这与LLMs的直接参数识别不同。为了进行评估,我们遵循(Ma et al ., 2022)中的指标,即参数识别F1分数(Arg-I)和参数分类F1分数(Arg-C)。此外,我们利用SST-2 和SNLI 数据集来评估我们的HD-LoA提示策略在其他非推理任务上的有效性:情感分析和自然语言推理。数据集的详细统计和检测样本数量列于附录A。

        Baselines:我们的HD-LoA方法与几种最先进的提示方法进行了比较,包括临床EAE中使用的标准提示和思维链(CoT)提示。Agrawal等人(2022)提出了在EAE任务上下文中提示LLMs的唯一现有方法。鉴于其直接的问答形式,我们根据ICL研究中流行的术语将其称为“标准提示”。值得注意的是,由于目前还没有为EAE量身定制的提示策略,所以在文献中,标准提示和CoT提示都没有应用于文档级EAE数据集。因此,我们在此报告再现结果。此外,我们将我们的方法与EAE中的各种监督学习方法进行了比较,如FewDocAE (Yang等人,2023)、CRP (Liu等人,2023a)、PAIE (Ma等人,2022)、TSAR (Xu等人,2022)、EEQA (Du和Cardie, 2020b)等。few-shot对比结果基于Liu等人(2023a)报道的few-shot性能。

        LLMs:实验使用三个大型语言模型进行:公开可用的GPT3 (Brown et al ., 2020)text- davincii -003和gpt-3.5 turbo- directive版本(Ouyang et al ., 2022),以及GPT-4 (OpenAI, 2023)。值得注意的是,由于与GPT-4相关的高成本,其评估仅限于部分数据集。更多实验细节见附录A,我们使用的提示见附录F。

图:简单一看用到的某个提示

5.2 总体实验结果

        针对RQ1,表3所示的实验结果表明,我们的HD-LoA提示显著增强了文档级EAE任务的上下文学习。HD-LoA方法在所有三个LLMs和两个数据集上始终优于CoT提示(Wei et al, 2022),在每个LLMs上的Arg-C的F1分数分别提高了4.65%、3.41%和6.03%(1978年)。此外,在text- davincii -003模型上,对标准提示(Agrawal et al, 2022)的改进达到7.99%。

表3:整体性能,在few-shot设置中,监督学习方法在RAMS数据集上的得分基于Liu等人(2023a)报告的结果,其中使用了1%的训练数据。

        针对RQ2,我们的HD-LoA方法在启发式的外部知识的基础上,与监督学习方法相比,在少数镜头设置下显着提高了性能。在提示符中只采用了一个例子,我们的HD-LoA在使用text- davincii -003模型的RAMS数据集上实现了比CRP方法(Liu et al ., 2023a)提高9.50%的F1分数。同样,在DocEE数据集上,我们的方法相对于FewDocAE实现了20.52%的显著改进(Yang et al ., 2023)。实验结果表明,该方法可以有效地减轻文档级EAE任务对大量标记数据的依赖,同时提高准确率。

5.3 HD-LoA提示对其他任务的适应性

        在解决RQ3问题时,我们将HD-LoA提示方法扩展到情感分析(SA)和自然语言推理(NLI)任务,利用SST-2 和SNLI 数据集进行评估。我们采用了来自Shum et al(2023)的这两个数据集的CoT样式提示。实验结果见表4。与CoT提示相比,该方法在SST-2和SNLI数据集上的准确率分别提高了2.87%和2.63%。这些发现表明,我们的HD-LoA提示可以有效地适应各种非推理NLP任务。SA和NLI任务的提示在附录F中提供。

表4:HD-LoA提示对情感分析和自然语言推理任务的评价

5.4 与完全训练监督模型的比较

        我们还将HD-LoA方法与在整个数据集上训练的监督学习方法进行了比较。与我们的方法相比,我们的方法在提示符中只使用一个样本,预计这些模型在数千个样本上训练将显示出更高的准确性。然而,HDLoA提示显示出具有竞争力的性能,在跨域设置中,与经过充分训练的监督方法相比,它的性能甚至优于这些在DocEE数据集上经过广泛训练的模型。

表6:与完全训练监督模型的比较

5.5 消融实验

        为了解决RQ4问题,做了如下实验:

        1、消融实验:我们对移除显性启发式和移除提示符中的类比链接提示策略进行消融研究。如图6所示,RAMS数据集上的实验结果表明,删除特定于任务的启发式提示或类比链接提示都会显著降低HD-LoA提示的ICL性能,这表明我们的提示策略的每个组成部分都是有效的。

图6:消融实验结果

        2、LoA的可见类和未见类准确性提高比较:为了进一步验证LoA提示策略的目标,该策略旨在提高提示符中未见类的ICL性能,我们评估和比较了附录d中可见类和未见类的LoA提示所促进的准确性提高。附录C中详细的结果表明,LoA提示确实有效地提高了提示符中未见类的ICL性能。

六、理解为什么HD-LoA提示有效

        在对我们的HD-LoA提示的有效性进行实证验证之后,本节将深入分析以阐明为什么我们的方法有效。启发式驱动的示范构建方法分析:首先,我们的方法在提示中自然地融入了多种不同的启发式。如2.2节所示,包含多种启发式方法可以显著提高ICL的性能。此外,认知研究发现,与复杂的方法相比,人类使用启发式作为有效的认知途径来获得更准确的推断。与这种人类认知策略并行,我们使LLMs能够从显式启发式中学习以增强推理。具体来说,对于在标准提示和明确的基本原理难以捉摸的非推理任务中表现出次优性能的LLMs,明确启发式的提供为LLMs提供了有用的策略来使用和增强推理。此外,如第2节所讨论的,LLMs使用嵌入传统提示的隐式启发式来促进推理。通过将这些隐式启发式转换为显式启发式,提供了一种更直接的方法来利用启发式,并可能潜在地简化LLMs对启发式的使用。

        类比链接提示分析:LoA提示受人类认知的类比推理启发,使LLMs能够通过对已知情况进行类比来处理新情况。这种能力在ICL中特别有用,LLMs总是面对看不见的样本和看不见的类。正如附录C中的实验所证明的那样,LoA提示确实有效地提高了提示符中未显示的类的ICL性能

七、相关工作

        现有的文档级EAE研究大多基于监督学习方法,这种方法依赖于大量收集标记数据。只有Agrawal等人(2022)利用不涉及任何推理策略的标准提示在临床EAE中采用LLMs。考虑到ICL在减少对大规模标记数据集的依赖和LLMs的革命性影响方面的潜力,缺乏针对EAE任务量身定制的提示策略的研究。上下文学习ICL使LLMs能够通过提供一些提示示例作为输入的一部分来执行目标任务。由于ICL的机制与监督式机器学习有着根本的不同,ICL的工作机制仍然是一个悬而未决的问题。很少有研究进行了初步的探索:Min等人(2022)表明,标签空间、输入文本分布和整体格式对ICL性能有贡献。Liu et al .(2022)得出结论,语义上与测试样本相似的示例更有效。A等(2022)发现基于transformer的ICL可以隐式地实现标准微调。在这项工作中,我们进一步假设并验证LLMs通过ICL从示例中学习任务-任务特定的启发式。

        此外,ICL的性能对样本选择非常敏感,最佳选择标准尚不清楚。各种研究提出了不同的方法:基于复杂性(Fu et al ., 2022)、互信息(Sorensen et al ., 2022)、多样性(Zhang et al ., 2023)、标记数据集(Shum et al ., 2023)等选择示例。在这项工作中,我们将不加区分的示例选择过程转换为强调任务启发式的系统方法,使示例选择过程更加透明。

八、结论

        在这项工作中,我们假设并验证LLMs在ICL期间从演示中学习特定于任务的启发式,这可以提供指导并简化示例选择过程。在此假设的基础上,我们引入了一种显式启发式驱动的示范构建策略,并提出了一种类比链接提示方法。这些方法揭示了LLMs的启发式学习和处理ICL中看不见的类的挑战。大量的实验证明了我们的HD-LoA提示的有效性和适应性。

        缺点

        LLMs对高级推理能力的依赖。在这项工作中,我们旨在探索在少镜头设置下EAE任务的情境学习性能的上限。我们的方法依赖于使用LLMs中复杂的推理能力,这使得它不适合推理能力有限的模型。例如,gpt-3.5 turbo- directive模型的有限推理能力可能会阻碍我们的方法的性能。然而,我们关于LLMs可以从上下文示例中学习启发式的发现适用于不同的LLMs。

        启发式的质量。启发式的性质对我们的方法很重要。我们通过提高生成高质量启发式和过滤掉低质量启发式的概率来解决这个问题。我们生成了大量的启发式候选,以增加包含高质量启发式的机会。随后,我们通过评估每个启发式候选在小样本集上的准确性来过滤掉低质量的启发式。未来的工作可以探索更复杂的启发式生成策略,例如生成具有不同粒度的启发式,或者基于错误分类示例的反馈来改进启发式。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐