语义计算2023秋季讨论班——元强化学习、弱监督学习方法中验证集的讨论、信息抽取方法

一、 主题: 元强化学习

主讲人: 范禄珂


摘要: 元强化学习代理需要从一系列轨迹中推断任务。此外,它需要一个快速的适应策略来调整其策略以适应新的任务,这可以通过使用自注意机制来实现。以此新提出的TrMRL (Transformer for Meta-Reinforcement Learning)是一个使用transformer架构模拟记忆恢复机制的元强化学习代理。它将最近的工作记忆联系起来,通过转换层递归地建立情景记忆。研究表明,自关注计算出一种共识表示,它在每一层上最小化贝叶斯风险,并提供有意义的特征来计算最佳行为。在高维连续控制环境下对运动和灵巧操作进行了实验。结果表明,在这些环境中,与基线相比,TrMRL具有相当或更好的渐近性能、样本效率和分布外泛化。


时间和地点:12月16日9:00-10:00(星期六上午九点-十点)办公楼310会议室

                        腾讯会议 ID:832-9044-3496


二、 主题:弱监督学习方法中验证集的讨论 

主讲人: 郑威


摘要 本次分享的文章,对现有弱监督学习方法中验证集的使用提出了质疑。弱监督学习通常仅从弱标记数据中学习模型,其在训练集中往往没有大量的标注数据,然而,现有的许多方法,使用了标注数据构成的验证集,用于模型选择或提前终止等目的,且由于验证集通常占数据集的10%-20%,这就带来以下问题,如果有标注数据作为验证集,那么直接拿它们用于精调模型是否是更有效的策略?那么复杂的弱监督方法是否还有效?



时间和地点:12月1610:00-11:00(星期六上午十点-十一点)办公楼310会议室

                       腾讯会议 ID:832-9044-3496


三、 主题: 信息抽取方法

主讲人: 刘洋


摘要: DiffusionNER将命名实体识别任务作为一个边界去噪扩散过程,从而从噪声跨度中生成命名实体;UTC-IE将所有的IE任务都解释为提取跨度和跨度关系,提出了一种统一的信息提取的标记对分类架构,实现统通用信息抽取。

时间和地点:12月1611:00-12:00(星期六上午十点-十二点)办公楼310会议室

                       腾讯会议 ID:832-9044-3496




图文作者:杨磊稳    责任编辑:孙宇清