语义计算2024春季讨论班——多文档问答中的知识图提示、对比解码:作为优化的开放式文本生成、大语言模型是半参数的强化学习代理

一、 主题: 多文档问答中的知识图提示

主讲人: 梁延杰


摘要 大型语言模型(LLM)的“预训练、提示、预测”范式在开放域问答(OD-QA)方面取得了显着的成功。然而,很少有作品在多文档问答(MD-QA)中探索这种范式,这项任务需要彻底理解文档内容和结构之间的逻辑关联。为了填补这一关键空白,我们提出了一种知识图提示(KGP)方法来制定正确的上下文来提示法学硕士进行MD-QA,该方法由图构建模块和图遍历模块组成。对于图构建,我们在多个文档上创建知识图(KG),其中节点表示段落或文档结构(例如页面/表格),边表示段落或文档结构关系之间的语义/词汇相似性。对于图遍历,我们设计了一个基于 LLM 的图遍历代理,它可以跨节点导航并收集在 MD-QA 中协助 LLM 的支持段落。构建的图作为全局标尺,调节段落之间的过渡空间并减少检索延迟。同时,图遍历代理充当本地导航器,收集相关上下文以逐步处理问题并保证检索质量。大量实验强调了 KGP 在 MD-QA 中的有效性,表明利用图表在增强法学硕士的即时设计和检索增强生成方面的潜力。


时间和地点:3月23日9:00-9:30 办公楼310会议室

                        腾讯会议 ID:784-1775-2497


二、 主题: 对比解码:作为优化的开放式文本生成

主讲人: 贾颖欣


摘要 在给定语言模型(LM)的情况下,对于开放式文本生成,最大概率是较差的解码目标,因为它会产生简短和重复的文本。另一方面,采样往往会产生偏离原始主题的不连贯文本。这篇文章中,作者提出了对比解码(CD),这是一种可靠的解码方法,它优化了一个对比目标,同时受到合理性约束的影响。CD不需要额外的训练,并且产生的文本质量比仅从较大的LM解码要高。



时间和地点:3月239:30-10:00 办公楼310会议室

                       腾讯会议 ID:784-1775-2497


三、 主题: 大语言模型是半参数的强化学习代理

主讲人: 范禄珂


摘要 根据认知科学对人类记忆和推理机制的见解,作者提出了一种新颖的可进化的基于LLM的代理框架,名为REMEMBERER。它通过给LLM配备长期经验记忆,REMEMBERER能够利用过去经历的经验。 即使对于不同的任务目标也是如此,这优于具有固定示例或配备短暂工作记忆的LLM代理。通过进一步引入了具有经验记忆的强化学习(RLEM)来更新记忆。因此,整个系统可以从成功和失败的经验中学习,并在不调整LLM参数的情况下发展其能力。在多个任务上的验证证明,REMEMBER取得了优于SOTA2%到4%之间的效果。

时间和地点:3月2310:00-10:30 办公楼310会议室

                       腾讯会议 ID:784-1775-2497




图文作者:杨磊稳    责任编辑:孙宇清