基于语用知识学习的少样本命名实体识别方法和装置

摘要:

本发明提出的基于语用知识学习的少样本命名实体识别方法和装置适用所有的命名实体识别识别领域,并且能够非常容易的进行跨领域的应用,相较于以往的命名时识别技术具备更强的性能和鲁棒性。

对于实体边界识别过程,由于剥离了类型信息,实体抽取器在少样本环境下的约束也变得更小。模型在源领域学习到的类型无关的实体语用知识能够最大限度的应用于目标领域,例如在各类上下文中实体以名词词性蕴含的语法信息能够非常容易的迁移到目标领域。

对于实体类型识别过程,使用特征独立的多元高斯概率密度函数对实体类型的分布进行直接建模。和传统的少样本建模方式相比,大大简化了模型训练和优化的复杂度。

本发明提出的用于实体边界识别的训练方法和用于类型识别的训练方法能够使得模型具备强大的持续学习能力,模型能够在不断的版本迭代过程中持续的增强性能,这是以往的方法无法实现的。

本发明提出的基于统计的实体重标注算法有效的召回了粗粒度数据中大量缺失的实体,能够使得很多原本无法使用的训练数据成为优质的训练语料,有效提升模型的鲁棒性。