语义计算2024春季讨论班——多粒度答案的开放域问题解答、用于代码生成的预训练扩散模型、大模型涌现的能力

一、 主题： 多粒度答案的开放域问题解答

主讲人： 梁延杰

摘要：事实问题通常可以在不同的粒度级别上得到正确回答。然而，标准问答 (QA) 评估协议并未明确考虑这一点，而是将预测答案与单一粒度级别的参考答案进行比较。在这项工作中，提出了 GRANOLA QA，这是一种新颖的评估设置，其中根据一组多粒度答案的准确性和信息量来评估预测答案。提出了一种简单的方法，用于通过多粒度答案丰富现有数据集，并创建 GRANOLA-EQ，这是 ENTITYQUESTIONS 数据集的多粒度版本。在 GRANOLA-EQ 上使用一系列解码方法来评估模型，包括一种称为响应聚合解码 (DRAG) 的新算法，该算法旨在使答案粒度与模型的不确定性保持一致。

时间和地点：4月2日19：00-19：30

腾讯会议 ID：784-1775-2497

二、 主题： 用于代码生成的预训练扩散模型

主讲人： 贾颖欣

摘要：基于自然语言生成代码的自回归模型有类似的局限性：它们不容易重新考虑之前生成的令牌（tokens）。

作者提出了CODEFUSION，这是一种预训练的扩散代码生成模型，通过对以编码的自然语言为条件的完整程序进行迭代去噪来解决这一限制。

作者在Bash、Python和Microsoft Excel条件格式（CF）规则的自然语言到代码生成任务中评估CODEFUSION。实验表明，CODEFUSION（75M参数）在top-1准确率方面与最先进的自回归系统（350M-175B参数）表现相当，由于CodeFusion在质量和多样性之间的良好平衡，其在top-3和top-5准确率方面超过自回归模型。

时间和地点：4月2日19：30-20：00

腾讯会议 ID：784-1775-2497

三、 主题： 大模型涌现的能力

主讲人： 范禄珂

摘要：最近的研究声称，在大型语言模型中，涌现能力在参数规模较小的模型中并不普遍存在，而在参数规模巨大的模型中更为常见。大模型的涌现能力具有巨大的吸引力，这主要有两个原因：一是其突然性，从完全不存在到出现似乎是瞬间完成的；二是其不可预测性，出现在看似无法预见的模型规模上。这项研究提出了另一种解释涌现能力的观点：对于特定任务和模型系列，在分析固定的模型输出时，涌现能力的出现主要取决于研究人员选择的度量标准，而不是模型家族在特定任务上随着规模的扩大而发生根本性变化。具体而言，研究人员指出，非线性或不连续的度量标准会导致性能的急剧变化，而线性或连续的度量标准则会导致性能的平滑、连续和可预测的变化。研究人员首先提出了一个简单的数学模型来解释这种现象，然后通过三种方式进行了验证。

时间和地点：4月2日20：00-20：30

腾讯会议 ID：784-1775-2497

图文作者：杨磊稳责任编辑：孙宇清