基于样本增强和自训练的低资源文本智能评阅方法和装置
摘要:
1)本发明所提出的评阅样本增强方法,能够更好地增加文本对中参考答案文本和学生答案文本或学生答案文本之间的交互信息量,相较于现有工作基于单文本的语义增强技术,能更好适合于评阅样本数量有限的情况,提升了样本增强效果和模型的鲁棒性。
2)本发明所提出的样本困难性评价方法,能够针对性地提高困难样本的优化力度,降低简单样本和噪音样本的优化力度,相较于基于交叉熵损失函数的监督训练,能增强评阅模型在训练数据中存在噪音样本和简单样本时的性能。
3)本发明所提出的评阅模型微调及自训练,能够有效提升评阅模型在少量样本情况下的评阅性能。其中提出了基于投票的伪标记预测方法以及基于置信度的伪样本采样方法,相比于使用模型单次预测结果作为伪标记以及单次预测概率作为伪标记置信度的方法,能够提升伪标记的准确率,缓解自训练过程中基于伪样本进行监督学习时存在的错误累积问题。