一、 主题: 释放预训练语言模型在离线强化学习中的强大能力
主讲人: 齐书成
摘要:
离线强化学习(RL)旨在利用预先收集的数据集找到一个接近最优的策略。在现实世界的场景中,数据收集可能成本高昂且存在风险;因此,当领域内的数据有限时,离线强化学习就变得尤其具有挑战性。鉴于最近大语言模型(LLMs)取得的进展以及它们的少样本学习能力,本文引入了用于运动控制的语言模型(LaMo),这是一个基于决策变换器的通用框架,以便有效地将预训练语言模型(LMs)应用于离线强化学习。本工作的框架突出了四个关键组成部分:(1)使用按顺序预训练的语言模型来初始化决策变换器;(2)采用低秩适应(LoRA)微调方法,与全权重微调不同,该方法能有效地将语言模型的预训练知识与领域内知识相结合;(3)使用非线性多层感知器(MLP)变换而非线性投影来生成嵌入;(4)在微调过程中整合一个辅助语言预测损失,以使语言模型保持稳定,并保留其在语言方面的原有能力。实证结果表明,LaMo 在稀疏奖励任务中取得了领先的性能表现,并且缩小了基于价值的离线强化学习方法与决策变换器在密集奖励任务中的差距。特别是,本工作的方法在数据样本有限的场景中展现出了卓越的性能。
二、 主题:REFT:基于强化微调的推理
主讲人:董照坤
摘要:
提升大语言模型(LLMs)推理能力的一种方法是使用思维链(CoT)标注进行监督微调(SFT)。然而,这种方法并未展现出足够强的泛化能力,因为训练仅依赖于给定的思维链数据。例如,在数学解题中,训练数据里每个问题通常只有一条标注好的推理路径。直观来看,若针对一个问题能从多条标注的推理路径中学习,算法的效果会更好。为解决这一问题,本工作以数学解题为例,提出了一种简单而有效的方法,名为强化微调(ReFT),旨在提升大语言模型推理学习的泛化能力。ReFT 首先通过监督微调对模型进行预热,然后采用在线强化学习(本文具体使用近端策略优化(PPO)算法)对模型进一步微调。在这个过程中,针对给定的问题会自动采样大量的推理路径,奖励则自然地从标准答案中得出。在 GSM8K、MathQA 和 SVAMP 数据集上进行的大量实验表明,ReFT 的表现显著优于监督微调,并且通过结合多数投票和重排序等推理时策略,性能还有进一步提升的潜力。值得注意的是,ReFT 是在与监督微调相同的训练问题上进行学习从而实现性能提升的,并不依赖额外的或扩充的训练问题。这表明 ReFT 具有更出色的泛化能力。
三、 主题: 为样本高效的强化学习预训练基于目标的模型
主讲人:张雨
摘要:
在与任务无关的大型数据集上进行预训练,是一种颇具前景的方法,可提升强化学习(RL)在解决复杂任务时的样本效率。本工作提出了 PTGM 这一全新方法,该方法通过预训练基于目标的模型,提供时间抽象和行为正则化,以此增强强化学习。PTGM 包括预训练一个低层级、基于目标条件的策略,以及训练一个高层级策略,以便为后续的强化学习任务生成目标。为应对高维目标空间带来的挑战,同时保持智能体完成各种技能的能力,本工作提出对数据集中的目标进行聚类,从而形成一个离散的高层级动作空间。此外,本工作引入了一个预训练的目标先验模型,用于规范强化学习中高层级策略的行为,提高样本效率和学习稳定性。在机器人模拟环境以及具有挑战性的《我的世界》开放世界环境中进行的实验结果表明,与基线方法相比,PTGM 在样本效率和任务性能方面具有显著优势。此外,PTGM 还展现出了更强的可解释性,以及所习得低层级技能的更好泛化能力。
时间和地点:2025年4月2日 18:30-21:00 办公楼会议室310
图文作者:梁延杰 责任编辑:孙宇清