语义计算2024春季讨论班——语言模型的对齐攻击,上下文学习示例选择


一、 主题: 语言模型的对齐攻击

主讲人: 吴慧倩


摘要 本次分享的第一篇文章介绍新的语言模型架构:背包语言模型,该模型有着优秀的建模能力的同时提供了可解释性与可控的接口。背包语言模型为词汇表中的每个单词学习多个上下文无关意义向量并将序列中的单词表示为该序列中意义向量的上下文相关的非负线性组合,将词袋模型与注意力机制思想结合,能够被用于去偏以及可控文本生成任务。第二篇文章介绍对齐大语言模型在面对对抗样本时,是否仍然具有对齐性。文章通过实验表明,一方面,现有的攻击方法不够强大,难以评估对齐模型的鲁棒性;另一方面,现有的基于人类反馈的强化学习等训练方式不能完全使大语言模型对齐人类价值观。


时间和地点:5189:00-10:00  办公楼310

                       腾讯会议 ID:784-1775-2497


二、 主题:上下文学习示例选择

主讲人:郑威


摘要 本次分享两篇文章,关于上下文学习(ICL)中的示例选择方法。ICL的性能高度受到所选上下文示例质量的影响。不同示例样本中,上下文学习性能可能会高度不稳定,表明语言模型获取信息的独特性。第一篇文章基于行列式点过程,考虑如何选择具有多样性、相关性的示例;第二篇文章则基于强化学习选择最优的示例序列。从两篇文章中,我们能看到在ICL的示例选择方法中,一种受欢迎的方式是基于一个小参数量的模型进行策略训练和示例选择,然后使用一个参数量较大的模型进行推理。

时间和地点:5月18日10:00-11:00  办公楼310

                      腾讯会议 ID:784-1775-2497





图文作者:杨磊稳    责任编辑:孙宇清