语义计算2023秋季讨论班——上下文学习示例检索,大型语言模型的元素感知摘要,基于预训练语言模型的命名实体识别方法,追踪导致不公平NLP模型偏见的轨迹

主题:上下文学习示例检索

主讲人:杨磊稳


摘要上下文学习是一种新的学习范式,其中语言模型以几个输入输出对(演示)和测试输入为条件,并直接输出预测。它已被证明高度依赖于所提供的演示,从而促进了演示检索的研究:给定测试输入,从训练集中检索相关示例,作为上下文学习的信息演示。虽然以前的工作侧重于分别为几个任务训练特定任务的检索器,但这些方法通常很难在各种任务上转移和扩展,并且单独训练的检索器会产生大量的参数存储和部署成本。在本次分享的论文中,我们提出了统一演示检索器(UDR),这是一个用于检索各种任务的演示的单一模型。通过语言模型的反馈将各种任务的训练信号投射到统一的列表排序公式中。通过多任务列表排序训练框架,迭代地挖掘寻找高质量的候选者,这可以帮助UDR充分融合各种任务的信号。



时间和地点:10月14日9:00-9:30(星期六上午九点-九点半)办公楼310会议室

                       腾讯会议 ID:832-9044-3496


二、 主题:大型语言模型的元素感知摘要

主讲人:吴慧倩


摘要本次分享动摘要生成的相关论文。 作为新闻子领域最主流的数据集,CNN/DailyMail 和 BBC XSum 已广泛用于性能基准测试。 然而,这些数据集的参考摘要结果是嘈杂的,主要体现在事实幻觉和信息冗余方面。 为了应对这一挑战,本文首先按照拉斯韦尔提出的“拉斯韦尔通信模型”注释新的专家编写的元素感知测试集,使参考摘要能够客观、全面地关注更细粒度的新闻元素。 利用新的测试集,作者观察到LLM令人惊讶的零样本总结能力,它解决了先前工作中LLM零样本摘要的人类偏好和自动评估指标之间结果不一致的问题。 此外,本文提出了一种摘要思想链(SumCoT)技术来引导LLM逐步生成摘要,这有助于他们将源文档的更细粒度的细节整合到与人类写作思维相关的最终摘要中。


时间和地点:10月14日9:30-10:00(星期六上午九点半-十点)办公楼310会议室

                       腾讯会议 ID:832-9044-3496


三、 主题:基于预训练语言模型的命名实体识别方法

主讲人:李成


摘要尽管大规模语言模型(LLM)已经在各种 NLP 任务上实现了 SOTA 性能,但其在 NER 上的性能仍然明显低于监督基线。这是由于 NER 和 LLM 两个任务之间的差距: 前者本质上是一个序列标记任务,而后者是一个文本生成模型。在本文中,我们提出了 GPT-NER 来解决这个问题。GPT-NER 通过将序列标记任务转换为可以被 LLM 方便地调整的生成任务来弥补差距,例如,在输入文本中寻找位置实体的任务被转换为生成文本序列@@ Columbus ##是一个城市,其中特殊标记@@## 标记要提取的实体。为了有效地解决 LLM 的幻觉问题,其中 LLM 有强烈的倾向将 NULL 输入标记为实体,我们提出了一种自我验证策略,通过提示 LLM 问自己提取的实体是否长于标记的实体标记。


时间和地点:10月14日10:00-11:00(星期六上午十点-十一点)办公楼310会议室

                      腾讯会议 ID:832-9044-3496


四、 主题:追踪导致不公平NLP模型偏见的轨迹

主讲人:李呈韬


摘要语言模型在各种数据源上进行预训练,包括新闻、讨论论坛、书籍和在线百科全书。这些数据中很大一部分包含的观点和观点,一方面颂扬民主和思想的多样性,另一方面又固有地带有社会偏见。我们的工作开发了新的方法:(1)沿着社会和经济轴测量在这些语料库上训练的LMs中的政治偏见,以及(2)测量在政治偏见LMs之上训练的下游NLP模型的公平性。我们专注于仇恨言论和错误信息检测,旨在实证量化预训练数据中政治(社会、经济)偏见对高风险社会导向任务公平性的影响。我们的研究结果表明,预训练的LMs确实具有政治倾向,这加强了预训练语料库中存在的两极分化,将社会偏见传播到仇恨言论预测和错误信息检测器中。我们讨论了我们的发现对NLP研究的意义,并提出了未来减轻不公平的方向。

时间和地点:10月14日11:00-12:00(星期六上午十一点-十二点)办公楼310会议室

                     腾讯会议 ID:832-9044-3496



图文作者:杨磊稳    责任编辑:孙宇清