祝贺实验室同学黄钿、李稳、郑璐阳顺利通过毕业论文答辩

山东大学语义计算实验室2024届硕士毕业生答辩于2024529日在山东大学软件园校区办公楼209会议室举行。

黄钿、李稳、郑璐阳3名硕士生参与了本次答辩。他们的毕业论文题目依次为《融合层次化类别信息的文本语义哈希技术》、《基于可区分主题的新论文推荐关键技术研究》、《中文作文评语生成关键技术研究》,指导老师为孙宇清教授。

三位同学分别和答辩委员会合影留念


三位毕业生与实验室其他成员合影留念


论文简介如下:

《融合层次化类别信息的文本语义哈希技术》 黄钿

文本语义哈希技术是将文本映射到低维二值空间的编码技术,从而可以有效地利用汉明距离进行语义相似性计算。随着大语言模型时代的到来,文档语料数量的爆炸式增长,文本语义哈希技术可以为海量知识检索提供重要支撑,辅助知识问答、协同推荐等下游任务提高性能,具有重要的实用价值。现有融合层次化类别信息的语义哈希技术主要采用层次关系约束,实现嵌入类别信息和语义信息的文本检索,但是存在异类样本语义相似或同类样本语义差异较大的模糊样本问题,导致哈希结果检索错误;而且现有技术通过分类方法融入类别信息学习,只能支持训练集中的有限类别检索,不支持新增类别。因此,解决模糊样本问题和支持类别语义理解的层次化可扩展类别信息嵌入问题具有重要的理论价值。针对上述挑战,本文工作如下:

1)针对模糊样本问题,提出了融合层次化类别信息的去混淆文本语义哈希技术。采用基于多元哈希距离对比损失的层次化类别约束,从而整体汇聚同类样本和差分异类样本;提出了基于动态类语义中心和模糊半径的模糊样本矫正方法,构建了类别相关的高斯分布,从而提升哈希检索的类别准确性。本文在多个开源数据集上进行了实验,选择目前性能最优的基线模型进行对比,结果表明本文模型在基本类别和父类上均优于基线模型。消融实验表明,层次化类别约束提升了模型的检索精准度,模糊样本矫正进一步提升了模型性能。超参数分析实验详细分析了模糊半径,损失权重和损失相关超参数对模型性能的影响。实例分析显示检索结果与查询样本满足层次类别相关性。进一步对哈希编码进行可视化分析,结果表明本文模型较现有方法有更好的类别聚集性。

2)针对自由定义的新增类别问题,提出了支持可扩展类别的文本语义哈希技术。采用类别标签和关键词序列建模层次化类别信息,从而支持用户定义新类别和添加层次化关系;为了对原始类别和扩展类别标签序列在统一空间进行语义编码,采用基于预训练语言模型的自编码器编码类别信息和关键词。采用自编码器对文档内容进行编码,依据文档的层次化类别信息,采用对比学习优化文档编码器,使其嵌入类别信息。最后,将文档内容和类别标签序列的组合编码作为文档语义编码,从而支持加权的文本语义哈希检索。为了验证融合可扩展层次化类别信息的文本语义哈希技术,本文构建了一个中文书籍语料数据集,并基于文档内容、层次化类别及关键词语义等信息设计了多角度模型评估指标。实验结果表明本文方法能够支持可扩展类别信息编码,对于文本语义和类别信息的保持能力更好,检索结果优于基线模型。消融实验和实例分析结果表明文档哈希模块、序列哈希模块和层次化类别对比损失均提升了模型性能。

3)设计实现了融合层次化类别信息的文本语义哈希系统。采用华为云高性能计算平台作为系统运行环境和设备支撑,设计实现了用户自由定义格式的文本语义哈希检索功能,支持类别查询、关键词查询和文档查询等不同查询形式,并提供了不同内容的混合查询功能和权重调整功能;设计实现了批量文档哈希编码功能,构建了类别、关键词、文档等可组合信息的数据范式,从而支持携带类别信息和不携带类别信息的文档进行批量哈希编码。系统测试结果验证了各项功能的有效性,并展示了面向终端用户的交互界面设计和系统功能实现。


《基于可区分主题的新论文推荐关键技术研究》 李稳

论文是总结交流研究进展和研究成果的重要形式,不同研究领域的学术创新形式差异很大,比如提出新问题或新理论,改进技术或方案,构建新的数据集等。随着每年大量论文发表,跟踪科研人员的动态学术兴趣并向其推荐符合兴趣且高水平的新论文具有重要现实意义。现有论文推荐工作主要基于文本内容和引文行为等建模用户兴趣,无法反应新论文的创新形式和科研人员研究兴趣的细粒度差异;现有论文评估工作通常基于论文引用量等评估论文学术影响力,不适用于缺少引用数据的新论文。因此,建模科研人员兴趣变化,从细粒度区分论文创新形式,帮助科研人员快速获取感兴趣的高质量新论文,对于科研创新具有重要理论价值。

本文针对新论文推荐和评估任务,设计了基于可区分主题的新论文推荐和评估模型。为区分论文创新形式,本文引入子空间概念描述论文背景、方法和结果等论文核心要素,采用基于分层序列标注网络的子空间标注模型,对论文摘要文本进行划分,并借助神经主题模型将论文内容建模为子空间上的主题分布,作为论文在子空间上的初始向量表征,用于学术网络图中论文节点表示,以及子空间上的论文创新性分析和用户兴趣推断。为了建模论文之间的学术知识或研究主题的传播,本文基于论文、作者等信息构建学术网络图,依据论文引用关系表征用户兴趣和论文影响力的主题关联情况,并采用非对称图卷积网络学习图中的主题传播情况。为反映用户兴趣演化情况,提出时间敏感的用户兴趣预测方法,以建模用户各阶段科研兴趣,借助时序模型预测未来兴趣变化,精准建模用户偏好。为了防止模型欠拟合,采用融入专家规则的样本选择策略筛选训练样本,以排除模糊样本,提升模型性能。为了筛选高质量新论文,本文提出用户兴趣和影响力驱动的新论文评估方法,可实现对新论文潜在学术影响力以及未来研究热点的有效预测,以帮助用户快速获取高水平新论文,及时把握研究热点。

针对新论文推荐和新论文评估任务,本文选择了前沿基线模型进行对比实验,实验结果证明了本文方法在新论文推荐和新论文评估任务中的有效性;消融实验验证了模型每个模块的必要性,尤其是针对神经主题模型输出的论文子空间向量的各类分析结果表明论文子空间向量蕴含丰富语义信息,可在细粒度上有效区分论文主题差异,并且蕴含逻辑关系,为后续用户兴趣提取和论文影响力评估提供了支持;超参数分析实验反映了超参数设置对模型性能的影响;实例分析实验用可视化的结果证明了本文模型在真实的论文推荐和评估场景下的可行性。


《中文作文评语生成关键技术研究》 郑璐阳

作文评语生成是指从多个角度评价给定作文内容并自动生成评语的过程,是评阅作文的一种重要形式。在作文评阅场景中,自动生成作文评语不仅为评阅成绩提供了可解释的依据,而且可以帮助学生理解作文的优点与不足,提升其写作水平,进而有效辅助教师的语文教学工作,具有重要的实用价值。现有的作文评语生成方法根据作文内容从多个角度生成作文评语,或是采用可控文本生成技术生成满足情感、主题等属性约束的文本,但是这些方法生成的评语不能反映作文风格的差异以及作文评阅对中小学生写作水平的差异化要求,也缺少评语生成过程的评价依据。近年来,通用大语言模型在许多任务上有良好性能,针对作文评语生成任务,大语言模型可以根据作文内容生成语言流畅的评语,但是其生成的评语无法反映不同年级的作文评阅要求。而且,由于大语言模型规模巨大,无法满足中高考等封闭式作文评阅场景的本地化部署要求。因此,研究轻量级作文评语生成技术具有重要实践意义和理论价值。

针对上述挑战,本文主要工作如下:

1)针对场景约束的作文评语生成问题,本文提出了融入先验知识的轻量级作文评语生成方法。场景约束是指中小学作文评阅要求的重要相关因素,如学生年级、作文文体类型等信息。为了反映不同年级、不同风格的作文评阅要求,构建了场景依赖的常频词库和统计分布作为先验知识。在评语生成模型中,采用交叉注意力机制融合常频词场景知识,采用动态权重融合字词统计分布知识。并设计了基于整体场景统计分布的校正模块,对生成评语进行风格校正。本文方法在真实作文评语数据集上和现有工作进行了对比,实验结果表明本文方法的性能超越了基线方法,同最优基线模型BART相比,在ROUGE-1ROUGE-2ROUGE-LMETEOR上分别提升了1.591.81.770.99个百分点,在BARTScore上提升了0.08个点。通过消融实验,验证了常频词空间融合模块、先验分布动态融合模块以及校正模块的有效性,并采用可视化方法展示了融入先验知识的效果。通过对比不同模型的生成样例,实证分析了生成评语的连贯性、准确性,以及不同场景约束的影响。最后,将该方法迁移到学术论文评语生成任务上,验证了其应用于其他领域的潜能。

2)针对评价依据模糊且评语与作文内容关联度较差的问题,本文提出了融入元示例的作文评语生成方法,将内容相似的作文作为参考,借鉴其评语对新作文进行评阅。首先采用基于作文语义的内容分割方法,构造了包含作文片段和对应评语的元示例数据集,为了消除原始作文内容带来的幻觉问题,设计了原始作文和评语交叉内容检测方法和掩码机制。评语生成方法基于新作文内容检索参考示例,为了提升检索结果相关性,采用对比学习训练文本语义编码器,依据文本编码检索相关示例数据,并结合新作文内容和示例评语内容生成新作文的评语。本文在真实作文评语数据集上进行实验,结果表明本文方法的性能超越了现有工作,同最优基线模型BART相比,在ROUGE-1ROUGE-2ROUGE-L上分别提升了5.582.834.9个百分点,在BARTScore上提升了0.1个点。通过消融实验,验证了该方法中文本语义编码器、内容掩码方法和元示例对模型性能的提升,并可视化展示了对比学习对于文本编码器的正向影响。最后,对于本文方法的生成结果进行了实证分析,针对不同模型的生成评语进行了内容语义对比实验,结果展示本文方法生成的评语具有更好的连贯性、准确性,通过生成评语和示例内容对比实验,展示了检索结果的合理性以及相关示例对生成评语的帮助。