一种融合自编码器和对抗训练的中文新词发现方法及装置

摘要:
一种融合自编码器和对抗训练的中文新词发现方法,包括:1)利用文本重构的自编码器,采用无监督预训练的方式提取句子级别的语义信息;2)添加先验句法知识,并与字符向量融合,形成字符句法拼接向量,以提升歧义词划分的准确性;3)对所述字符句法拼接向量进行对抗训练:将输入源域和目标域的混合数据融入到共享层中,利用对抗架构以生成与领域无关的特征向量,提取与领域无关的信息,通过利用各领域间存在共性的特征,解决专业领域标注数据较少问题;4)采用条件随机场网络层对步骤3)所述对抗训练后得到的字符序列进行标注,以进行新词发现,输出发现结果。本发明充分借助通用领域中充足的标注语料以及先验句法知识辅助分词。