祝贺刘天元同学顺利通过博士学位论文答辩
语义计算实验室刘天元同学的博士学位论文答辩于2023年12月3日在山东大学软件园校区办公楼310会议室举行。答辩委员会主席为电子科技大学秦志光教授,答辩委员会委员包括复旦大学顾宁教授、山东师范大学刘弘教授、山东大学刘治教授、山东大学徐庸辉教授,答辩委员会秘书为山东大学刘宁助理教授。
刘天元在博士研究生阶段,深入研究了无监督可控文本改写领域的若干重要问题,提出了基于依存句法和词汇语用模式的词汇组合知识神经表征方法、基于词汇组合知识的无监督句法可控文本改写方法和无监督端到端的对抗性文本改写方法,以及改进了无监督多样性可控文本改写技术。该研究创新在可控文本生成研究领域具有理论价值,对于缺少标记数据的下游任务进行数据增强具有重要应用价值。刘天元同学详细汇报了论文研究工作,并回答了评委们提出的问题。
答辩委员会认为刘天元同学在答辩过程中陈述清晰,对答辩委员会提出的问题回答正确,研究成果达到博士学位论文水平,一致同意通过该论文答辩,并建议授予博士学位。导师孙宇清教授和实验室其他成员也参加了毕业答辩会。
刘天元同学论文答辩
答辩组委会与刘天元同学合影留念
论文题目:无监督可控文本改写技术研究
答辩人:刘天元
导师:孙宇清教授
论文摘要:数据驱动的深度学习是人工智能的主流技术,通常需要大量数据进行训练或微调。在许多现实场景中,由于难以获得大量监督数据,严重影响模型性能,迫切需要数据增强技术以增加高质量的训练数据。在自然语言处理领域,文本改写是数据增强的重要手段,通过对给定的原始文本进行改写,能够生成语义稳定且不同形式的文本,对于提升下游任务性能具有重要价值。现有文本改写的监督技术需要依赖大量平行语料,方能获得高质量的改写文本;现有无监督文本改写技术通常采用词汇替换方法进行文本改写,缺乏对文本的整体语义理解,容易产生语义漂移,而无监督的整句改写方法则由于缺少对词汇语用的训练信号,难以兼顾文本的句法合理性和形式多样性。因此,面向生成文本的细粒度句法可控性、语义差异可控性和形式多样性等需求,研究无监督可控文本改写技术具有重要的理论价值和实践意义。针对上述目标,本文研究内容如下:
(1) 针对文本的语义和语法合理性联合验证问题,提出了基于依存句法和词汇语用模式的词汇组合知识神经表征方法。现有句法分析技术或大语言模型方法可以给出具体实例的文本句法合理性判别,但缺少可复用的细粒度词汇依赖知识;而常用的词汇语义方法如预训练词向量等,缺乏句法依赖信息,针对改写文本,无法提供词汇组合的句法合理性判定信息。为此,本文依据语言学的词汇语用知识,基于海量真实语料库,建模词汇和句法关系的组合规律,利用预训练语义向量表示词汇,使用依存句法映射函数关联词汇语义和句法信息,通过句法空间的能量函数评估随机词汇组合的合理性。本模型借助公开的依存句法标记树库,采用噪声对比估计方法进行训练,形成轻量型的神经网络形式存储的词汇组合知识。为了验证词汇组合知识的有效性和可复用性,分别进行了语言学验证和下游应用验证,实验结果表明了该知识可以有效提升词汇组合质量和辅助文本改写。相较于现有的语言学知识建模方法,不仅训练成本和使用成本低,不受表外词问题干扰,而且能够提供细粒度的词汇语用知识。
(2) 针对改写文本的语义和句法细粒度可控性问题,提出了基于词汇组合知识的无监督句法可控文本改写方法。现有句法可控的文本生成方法主要采用成分句法树,侧重于整句结构的一致性而非词汇使用的合理性,存在语义漂移和细粒度的词汇组合不合理问题。本文采用依存句法结构树作为控制信息,通过对句子的语义和句法进行解耦和分别编码,形成可独立使用的控制信息,从而指导改写文本生成器进行语义和句法可控的文本改写,并采用样本重构任务实现了无监督训练。为了更好地平衡生成语句的整体语法结构和细粒度词汇组合,引入了层次化结构匹配损失,采用预训练的词汇组合知识为词汇间的搭配合理性提供训练信号,有效控制了生成语句的整体结构和词汇选择。相较传统的成分句法,本文使用依存句法能够兼顾整体结构和细粒度词汇句法的合理性。在多个文本改写数据集上进行了验证,实验结果表明本文方法在改写文本与原始文本的语义一致性上优于现有改写方法,在句法结构一致性上具有明显优势。
(3) 针对目标导向的文本细粒度语义差异可控性问题,提出了无监督端到端的对抗性文本改写方法。生成对抗样本是提升数据驱动的神经网络模型鲁棒性的重要手段,现有主流技术采用词汇组合搜索方法生成文本,需要不断地与目标模型交互,通过模型反馈调整生成样本,不仅时间耗费大,而且依赖目标任务的特定判别模型。本文提出的端到端对抗性样本生成框架,能够依据参考样本自适应地生成改写条件,从而引导文本改写器生成目标任务的对抗性样本;提出的预训练对抗性判别器,能够提供目标导向的对抗样本训练信号。该方法融合了对抗性训练和数据增强的优点,能够捕获下游任务的数据集特征分布,首次实现了判别模型无关的端到端对抗性样本生成。在多个下游自然语言处理任务和目标模型上进行了实验验证,结果表明该方法能够提升目标模型的性能和抗攻击方法的鲁棒性,在效率上也显著好于现有对抗性样本生成方法。
(4) 提出了无监督多样性可控文本改写技术,能够兼顾多样性改写文本中的语义一致性和句法合理性。对于给定参考文本,生成形式多样的改写文本是数据增强场景中的重要需求。现有方法在生成过程引入隐空间随机变量和词汇替换等随机采样技术生成多样性文本,缺乏改写文本在形式和语义上的细粒度控制,从而影响了改写文本的语义一致性和句法合理性。本文提出了基于句法子树替换的多样性可控文本改写方法,利用公开语料库,建模子树结构和语义等多个维度特征,构建了可复用的句法结构子树库;对于给定的原始文本,从子树库中检索功能和形态特征相似子树,构造多样性句法结构,进行多样性的句法可控的文本改写,比现有方法更好地控制了改写文本的句法合理性和形式多样性。实验结合对抗性文本改写方法,在多个下游自然语言处理任务上对方法的数据增强效果进行了验证。结果表明该方法能够有效提升下游模型在任务上的性能和抗攻击鲁棒性,在少数据量场景下对性能提升效果更为显著。
图文作者:杨磊稳 责任编辑:孙宇清