融合规则和统计特征的中文专业术语抽取方法和系统

摘要:

本发明一种融合规则和统计特征的中文专业术语抽取方法包括:专业术语发现,专业术语筛选和评估优化;

在专业术语发现部分,采用自然语言处理领域通用的包含词频统计词典和概率算法的分词工具,若候选专业术语被记录在分词词典中且被完整分出情况,则直接进行后继筛选阶段;若专业术语虽然在分词字典中但未被分词器直接分出,即专业术语不包含在词典中的情况,则基于子词词性匹配规则、点互信息、词汇自由度,再通过子词拼接抽取候选专业术语。

在专业术语筛选阶段,本发明提出了基于统计的词频、词条数、点互信息、词汇自由度、信息量差异比等专业术语抽取指标和抽取技术,将分词结果中的专业术语从通用词汇或概念中提取出来。

在评估优化阶段,本发明提出基于专业术语在专业文本和通用文本中的信息量差异的评价指标和优化技术,从语用规律和上下文两个角度对候选结果进行评价和优化提取。