语义计算2024春季讨论班——检索增强生成、语言模型对齐


一、 主题: 检索增强生成

主讲人: 梁延杰


摘要 让大型语言模型(LLM)生成的内容准确、可信、可追溯至关重要,尤其是在需要多步骤推理且每一步都需要知识来解决的复杂知识密集型任务中。检索增强生成很有可能解决这个问题。然而,在哪里以及如何将信息检索(IR)引入LLM是一个很大的挑战。以往的工作存在IR检索到的错误知识误导LLM以及IR和LLM之间的交互破坏LLM推理链的问题。本文提出了一种名为搜索链(SearChain)的新颖框架,用于 LLM 和 IR 之间的交互,以解决这些挑战。首先,LLM 生成名为 Chain-of-Query (CoQ) 的推理链,其中每个节点都由面向 IR 的查询-答案对组成。其次,IR验证CoQ各节点的答案。当IR给出高置信度时,它会纠正与检索到的信息不一致的答案,从而提高可信度。第三,LLM可以指出其在CoQ中缺失的知识,并依靠IR向LLM提供这些知识。这些操作提高了推理和知识方面的准确性。最后,SearChain 生成推理过程,并标记每个推理步骤的支持文档引用,从而提高可追溯性。 SearChain 与 IR 的交互形成了一种新颖的基于树的推理路径,使得 LLM 能够动态修改推理方向。实验表明,SearChain 在复杂的知识密集型任务(包括多跳问答、槽位填充、事实检查和长篇问答)上的性能优于最先进的基线。



时间和地点:4289:00-10:00 办公楼310会议室

                       腾讯会议 ID:784-1775-2497


二、 主题:语言模型对齐

主讲人:范禄珂


摘要 Reinforcement Learning from Human Feedback (RLHF)是一种促进大型语言模型与人类偏好对齐的方法,显著提高了人类与模型之间交互的质量。InstructGPT通过几个阶段实现了RLHF,包括监督微调(SFT)、奖励模型训练和近端策略优化(PPO)。然而,PPO对超参数敏感,在标准实现中需要多个模型,使得训练和扩展到更大参数量变得困难。相比之下,作者提出了一种新颖的学习范式,称为RRHF,它通过条件概率的对数得分样本响应,通过排名损失学习将这些概率与人类偏好对齐。RRHF可以利用来自不同来源的样本响应进行学习,包括来自自身的模型响应、其他大型语言模型响应和人类专家响应,以学习对它们进行排名。RRHF在调整过程中只需要1到2个模型,并且可以有效地将语言模型与人类偏好鲁棒地对齐,无需复杂的超参数调整。此外,RRHF可以被看作是SFT和奖励模型训练的扩展,同时在编码、模型数量和超参数方面比PPO更简单。作者在Helpful and Harmless数据集上评估了RRHF,通过奖励模型得分和人类标注展示了与PPO相当的对齐性能。大量实验表明,RRHF的性能与采样质量密切相关,这表明RRHF是一个最佳学习器。


时间和地点:42810:00-10:30 办公楼310会议室

                    腾讯会议 ID:784-1775-2497




图文作者:杨磊稳    责任编辑:孙宇清