祝贺王舰同学顺利通过博士学位论文答辩

语义计算实验室王舰同学的博士学位论文答辩于2025年11月27日在山东大学软件园校区办公楼310会议室举行。答辩委员会主席为齐鲁工业大学马宾教授,答辩委员会委员包括山东师范大学王皓教授、山东大学李庆忠教授、山东大学孙宇清教授、山东大学崔立真教授、山东大学孔兰菊教授。


博士研究生王舰在读期间,围绕“认知启发的多文档摘要关键技术研究”这一主题,系统开展了多源用户生成文本的智能摘要方法研究。在孙宇清教授指导下,他从元认知自我监控、双系统理论、立场关联和概念关联等认知理论中汲取灵感,先后提出了用于缓解大模型观点幻觉与冗余的自评估迭代式提示校准框架,面向主流与少数群体观点全面覆盖的基于方面的引导信息构建方法,支持观点—证据可追溯与分歧可解释的立场关联观点摘要生成方法,以及面向跨文档多跳推理的融合概念关联的知识摘要生成方法,并构建了相应的摘要质量与知识完备性神经评估体系。相关方法在多个数据集和多种基础模型上取得了优于现有方法的性能,部分小参数模型在其方法加持下甚至超越超大规模模型,显示出显著的理论创新价值和在舆情分析、复杂问答等场景中的应用潜力。答辩会上,王舰同学全面汇报了论文的主要研究内容、技术路线与实验结果,并就评委提出的关于方法适配性、可解释性与应用推广前景等问题进行了充分而详尽的回答。


答辩委员会认为王舰同学在答辩过程中陈述清晰,对答辩委员会提出的问题回答正确,研究成果达到博士学位论文水平,一致同意通过该论文答辩,并建议授予博士学位。导师孙宇清教授和实验室其他成员也参加了毕业答辩会。


在山大的茫茫求学岁月中,王舰同学的科研之路铺满了勤勉与专注的印记。在孙宇清教授的悉心指引下,他从对认知理论与摘要技术认知逐步走向精深与系统化的探索。多少个日夜,他埋头于文献与代码之间,一次次推敲模型的边界,一遍遍验证算法的效能。孙老师严谨的治学态度与敏锐的学术洞察力,如同灯塔,在他遇到瓶颈时照亮前路,在他思路困顿时点拨迷津。从“自评估迭代式提示校准框架”的初具雏形,到“立场关联观点摘要生成方法”的逐渐完善,每一个创新点的突破,背后是师生间无数次的讨论、修正与迭代。实验室的灯光记得他专注的身影,这份博士学位论文,不仅凝聚着他个人的智慧与汗水,也深深浸润着导师的教诲与期待。当答辩委员会宣布一致通过决议的时刻,那不仅仅是对一项研究成果的认可,更是对一段潜心耕耘、上下求索的学术旅程的圆满见证。


王舰同学答辩现场

王舰同学与答辩专家组合影

王舰同学与导师孙宇清教授合影

王舰同学与实验室成员合影



论文题目:认知启发的多文档摘要关键技术研究

答辩人:王舰

导师:孙宇清教授

论文摘要:

博客、论坛及问答社区等平台上积累了大量文本类数据,包括用户发表的观点、经验分享、问题解答以及互动讨论等等。如何高效利用这些用户生成数据快速获取关键信息,对于政策分析与方案制定、用户疑难解答等现实应用具有重要价值。由于这些信息来源多样,形式和内容差别大,且应用目标各异,难以采取统一模式进行摘要内容提取。例如,针对舆情观点分析目标,摘要结果不仅需要体现主流观点还需要覆盖少数群体观点,以及这些观点的本质差异或分歧点的证据;针对复杂问题问答目标,则需要从各类知识文档中抽取完备的知识,以辅助跨文档的多跳知识推理,确保摘要的知识完备性。而包括大模型在内的前沿方法主要针对多文档的共性内容形成摘要,无法满足上述不同应用场景的需求,这些问题也是人工智能技术的前沿问题和挑战性问题,具有重要理论价值。

本文受认知理论启发,面向差异化目标需求设计文档内容分析、摘要评估和优化方法,形成代表性场景下的多文档摘要关键技术,主要研究内容和贡献包括:

(1)针对大模型生成结果存在的观点幻觉和冗余问题,提出了基于自评估的迭代式提示校准框架。框架借鉴于元认知中的自我监控机制,以大模型为基础模型,将摘要生成过程建模为一个带有上下文的马尔科夫决策过程,通过迭代化地校准提示以最大化摘要所获得奖励。为了形成能够体现摘要忠实性和冗余度的奖励,设计了基于立场的摘要评估方法,依据源文档和摘要观点的立场关系,计算源文档对摘要的支持度和摘要观点的差异度,综合支持度和差异度计算奖励信息。为了引导模型生成高奖励的摘要,从已生成摘要中选择被源文档广泛支持、且有差异的句子校准提示,解决了传统观点摘要生成方法难以精细纠正摘要语义、观点语义冗余的问题。三个数据集上的实验结果显示本方法生成的摘要在和参考摘要的语义一致性上均优于基线模型,且具有低的内容冗余。在该框架下,一个7B参数量的模型性能超越了175B参数量的模型。人工评估结果显示在摘要忠实性、非冗余性、句子连贯性、观点全面性四个维度,相比方法使用的基线大模型,性能提升37%。

(2)针对多文档摘要遗漏少数群体观点问题,受双系统理论中分析系统和直觉系统协同处理复杂任务的启发,设计了基于方面的引导信息构建方法。引入了观点方面将文档集合划分为多个方面相关的子集,提升了少数群体观点的显著性。从每个方面相关的子集中抽取关键短语构建语义引导,指导大模型识别并覆盖主流和少数群体观点。同时,引入了方面自适应的摘要长度控制策略,基于方面的数量动态约束摘要的长度,该长度约束连同预定义的摘要模板形成了格式引导,提升摘要的精炼性。三个数据集上的实验结果表明方法在观点全面性、和参考摘要的相似性等方面都取得了当前最优结果。相比传统引导信息构建方法,本方法所形成的语义引导质量提升了40\%,且方法对不同的基础模型具备适配性。

(3)针对多文档摘要生成结果中的观点难以追溯相应证据、以及观点间的分歧难以解释问题,提出了基于立场关联的可解释观点摘要生成方法。设计了证据引导的摘要续写策略,首先生成主流观点,然后依据和主流观点的立场关联将源文档集合切分为多个证据集,随后以主流观点为初始摘要,分别以不同证据集为上下文对摘要续写。每一次续写的观点都基于支持该观点的证据,建立了摘要中的观点与证据的对应关系。提出了基于子模优化的解释集构建方法,设计了融合多个维度的解释集评估函数,基于此函数,通过子模优化算法分别在支持不同观点的证据集中选择证据形成了解释集,揭示分歧发生的来源。三个数据集上的实验结果表明方法生成的摘要在和参考摘要的语义相似性、观点覆盖度和简洁性上都优于对比方法。在不同基础模型上的实验也验证了本文方法对这些模型的适配性。大模型和人工评估结果表明所形成的解释集在80\%的样本上都优于对比方法。

(4)针对文档间隐式多跳关联导致的推理困难问题,提出了融合概念关联的知识摘要生成方法。引入了概念关联建立了文档中片段间的多跳隐式关联,同时考虑了由名词共现所建立的片段直接关联。基于上述关联,引入了基于随机游走策略的片段选择方法,从大量的文档片段中选择和问题相关且能够辅助推理的文本片段。为了提升摘要生成模型对片段关联的感知能力,提出了片段级语义交互机制,融合了片段关联和片段的上下文语义生成摘要。两个数据集上的实验结果表明,方法生成的摘要在和参考摘要的相似度上优于对比方法。相比基于语义相似性的片段选择方法,本文方法所选择到的片段能够多覆盖14\%的知识要点。为了评估生成摘要的知识完备性,设计了基于问答模型的神经评估方法,通过扰动少量参考摘要产生具有不同知识程度的样本,通过问答模型标注这些样本的知识完备度,进而训练神经评估模型。所训练的评估模型能够从知识的角度评估摘要,且对多样化的语言表达具有鲁棒性。