语义计算2024秋季讨论班——抽象推理归纳的时态知识问答与大模型引导的信息抽取
一、 主题: 抽象推理归纳的时态知识问答
主讲人: 董照坤
摘要: 在这项研究中,我们解决了在大型语言模型(llm)中增强时间知识推理的挑战。法学硕士经常在这个任务上挣扎,导致产生不准确或误导性的回答。这个问题主要是由于他们处理不断发展的事实知识和复杂的时间逻辑的能力有限。为了克服这些限制,我们提出了抽象推理归纳(ARI)框架,该框架将时间推理分为两个不同的阶段:知识不可知论阶段和基于知识的阶段。该框架为法学硕士提供了事实知识支持,同时最大限度地减少了无关噪声数据的合并。同时,在建构主义原则的指导下,ARI为llm提供了从正确和错误的历史推理样本中进行主动、自主学习的能力。通过教授法学硕士积极建构知识和方法,可以显著提高他们的时间推理能力。我们的方法取得了显著的改进,在两个时间QA数据集上的相对增益为29.7%和9.27%,强调了它在推进llm时间推理方面的有效性。
二、 主题:通过指令调整来解锁大型语言模型在搜索中的力量
主讲人:刘洋
摘要: 大型语言模型(llm)在各种自然语言处理任务中表现出了令人印象深刻的能力。尽管如此,它们在信息检索(IR)任务中的应用仍然具有挑战性,因为在自然语言中很少出现许多与IR相关的概念。虽然基于提示的方法可以为llm提供任务描述,但它们往往不能促进对IR任务的全面理解和执行,从而限制了llm的适用性。为了解决这一差距,在这项工作中,我们探索了指令调整的潜力,以提高llm对IR任务的熟练程度。我们引入了一个新的指令调优数据集INTERS,包含三个基本IR类别的20个任务:查询理解、文档理解和查询-文档关系理解。这些数据来自于43个不同的数据集,并使用了手工编写的模板。我们的实证结果显示,INTERS显著提高了各种公开可用的llm的性能,如LLaMA、Mistral和Falcon。此外,我们还进行了广泛的实验,以分析了指令设计、模板多样性、少镜头演示和指令量对性能的影响。
三、 主题: 公正而缓慢的思考:关于结构化提示对去偏见语言模型的有效性
主讲人:张雨
摘要: 现有的去偏见技术通常是基于训练的,或者需要访问模型的内部和输出分布,因此对于希望调整大型语言模型(LLM)输出以满足特定需求的最终用户来说,这些技术是无法访问的。在这项研究中,我们检验了结构化提示技术是否能够为公平文本生成提供机会。我们评估了一个全面的、以最终用户为中心的迭代去偏见框架,该框架应用系统2思维过程来诱导逻辑性、反思性和批判性文本生成,包括单一步骤、多步骤、指令和基于角色的变体。通过系统地评估许多数据集和不同提示策略下的多个LLM,我们展示了基于更复杂的系统2的隐含提示在输出中的均值偏见显著低于其他技术,同时在下游任务上展现出竞争性的表现。我们的工作为设计和潜在的最终用户为中心的LLM使用评估框架提供了研究方向。
时间和地点:2024年11月9日 9:00-12:00 办公楼会议室310
图文作者:梁延杰 责任编辑:孙宇清