语义计算2025春季讨论班——强化学习专题2
一、 主题: 结合监督学习与强化学习以处理带有部分标签的多标签分类任务
主讲人: 齐书成
摘要:
二、 主题:SEER:通过强化学习促进结构化推理与解释
主讲人:董照坤
摘要:通过从问题到答案的结构化解释来阐明推理过程至关重要,因为这能显著提升问答(QA)系统的可解释性、可追溯性和可信度。然而,结构化解释要求模型进行复杂的结构化推理,这带来了巨大的挑战。大多数现有的方法侧重于通过监督学习进行单步推理,忽略了步骤之间的逻辑依赖关系。此外,现有的基于强化学习(RL)的方法忽视了结构化关系,未能充分发挥强化学习在结构化推理中的潜力。在本文中,本工作提出了 SEER,这是一种全新的方法,它通过最大化基于结构的回报来促进结构化推理与解释。本工作所提出的基于结构的回报精确地描述了结构化推理中固有的层次和分支结构,有效地捕捉了不同推理步骤之间的复杂关系。此外,本工作引入了一个细粒度的奖励函数,以精细地描绘各种不同的推理步骤。大量的实验表明,SEER 的表现显著优于当前最先进的方法,在 EntailmentBank 数据集上,相较于基于强化学习的方法,SEER 实现了 6.9% 的绝对提升;在 STREET 基准测试上,平均提升了 4.4%,并且展现出了出色的效率和跨数据集的泛化性能。
三、 主题: 借助语言模型评判器提供的密集奖励来增强强化学习
主讲人:张雨
摘要:强化学习(RL)能够使语言模型与不可微的奖励信号(比如人类的偏好)保持一致,然而一个主要的挑战却源自这些奖励信号的稀疏性,通常对于一整个输出结果只有单一的奖励,而这种奖励的稀疏性可能会导致学习效率低下且不稳定。为了解决这一挑战,本论文引入了一个全新的框架,该框架利用大语言模型(LLMs)的评判能力,在强化学习训练过程中生成中间步骤的奖励,具体方法是将一个策略模型与一个评判语言模型相结合,由评判语言模型对策略模型输出的每个部分提供反馈,然后这些反馈会被转化为标记或片段级别的奖励,用于指导强化学习的训练过程。本工作在两种不同的设置(一种是策略模型规模较小并与一个更强大的评判模型搭配,另一种是由单个语言模型同时承担这两种角色)下研究了这种方法,并在情感控制、语言模型去毒化以及文本摘要这三项文本生成任务上对其进行评估。实验结果表明,纳入人为的内在奖励在自动评估和人工评估的支持下,显著提高了样本效率以及策略模型的整体性能。
时间和地点:2025年4月9日 18:30-21:00 办公楼会议室310
图文作者:梁延杰 责任编辑:孙宇清