融合层次化标签信息的去混淆文本哈希算法和装置

摘要:

融合层次化标签信息的去混淆文本哈希算法和装置,属于自然语言处理和信息检索技术领域。发明针对具有层次化标签的文本特性,通过多元损失构建哈希空间中的层次化相似性关系;并且,为防止哈希算法在编码过程中受到类别与语义相似性不一致的样本的影响,引入去混淆性的技术思路。本发明能够在哈希空间中建立有效的层次化相似性关系,能够更好地适配真实的近邻检索场景,有效地使用标签信息来构建层次化的哈希空间,使得哈希码满足与原始语义相似性一致的同时,不同层次中呈现同标签样本聚集,不同标签样本分散的层次化空间分布。本发明还有效地增加模型在实际使用中的健壮性。