语义计算2022秋季讨论班——主题模型和关键词生成方法
一、 主题:主题模型
主讲人:李稳
摘要:本次介绍的两篇工作都是和主题模型相关的。第一篇工作提出了一个向神经主题模型融入外部知识的新策略,通过采用预训练加微调的形式提升了模型性能;第二篇工作提出了一个上下文相关的词组表示和主题挖掘的无监督对比学习框架,可以生成高质量的词组嵌入表示,并针对主题挖掘进行特定主题的微调。
时间和地点:9月24日9:00-10:00(星期六上午9点-10点)线上
腾讯会议 ID:690-7644-3039
一、 主题:融入自训练与提示学习的小样本学习方法SFLM,无监督的深度关键词生成方法AutoKeyGen
主讲人:吴慧倩
摘要:第一篇工作:未标记的数据携带丰富的信息,对小样本学习很有用,问题在于如何有效地利用这些数据。本文重新审视了语言模型fine-tuning的自训练技术,提出了基于提示的小样本学习方法SFLM。给定文本样本弱增强和强增强两种角度,SFLM在弱增强版本上生成伪标签,然后使用强增强版本进行微调时预测相同的伪标签,方法在六个句子分类和六个句子对分类基准测试任务中表现优于其他最先进的监督和半监督方法。第二篇工作:深度神经模型进行关键词往往以大量标记数据为代价。本文提出关键词生成方法AutoKey Gen,无需任何带标记的文档。作者发现某篇文档中的缺失关键词通常会在其他地方以整体或局部的方式出现,因此,本文汇集语料库中提取的所有短语来构建短语库,通过部分匹配算法对文档分配候选短语,然后我们通过文档与关键词的词汇和语义相关性对这些候选词进行排名。此外本文提出根据这些伪标签生成更多缺失关键词的深度生成模型。
时间和地点:9月24日10:00-11:00(星期六上午10点-11点)线上
腾讯会议 ID:690-7644-3039
图文作者:李稳 责任编辑:孙宇清