祝贺尹来国同学的论文被人工智能领域旗舰会议ICLR 2026录用
祝贺尹来国同学的论文被人工智能领域旗舰会议ICLR 2026录用
近日,尹来国同学的论文《Multimodal Aligned Semantic Knowledge for Unpaired Image-Text Matching》被人工智能领域重要国际学术会议 ICLR 2026 录用。ICLR 2026 即第十四届国际学习表征会议(The 14th International Conference on Learning Representations),是深度学习、表征学习与人工智能领域具有广泛影响力的顶级学术会议之一,长期关注表征学习、深度神经网络、生成模型、自监督学习、优化方法及多模态学习等前沿方向,汇聚了来自全球高校、科研机构和产业界的优秀研究者。该会议被中国计算机学会(CCF)列为人工智能领域 A 类国际学术会议。
该论文聚焦无配对图文匹配任务。针对现有方法在处理分布外词汇时难以准确建立语义对应关系、不同词汇视觉表示方差差异影响匹配精度等问题,论文提出多模态对齐语义知识方法(Multimodal Aligned Semantic Knowledge, MASK)。该方法利用词嵌入作为桥梁,将文本词语与视觉原型进行关联,从而实现图像与文本模态之间的语义知识对齐;同时,针对分布外词汇,利用词嵌入中的语义关系构建其代表性原型,并通过原型一致性对比学习损失对特征空间进行结构化约束,以提升无配对图文匹配的准确性与鲁棒性。
论文摘要如下:
Multimodal Aligned Semantic Knowledge for Unpaired Image-Text Matching
现有方法通常通过构建跨模态对齐知识来解决无配对图文匹配问题,但在面对分布外(Out-of-Distribution, OOD)词汇时,往往难以识别与其语义相对应的视觉表示。同时,不同词汇对应的视觉表示在分布方差上存在明显差异,也会影响图文匹配的准确性。针对上述问题,本文提出了一种名为多模态对齐语义知识(Multimodal Aligned Semantic Knowledge, MASK)的方法。该方法以词嵌入作为桥梁,将词语与其对应的视觉原型相关联,从而实现图像模态与文本模态之间的语义知识对齐。对于 OOD 词汇,MASK 利用词嵌入中蕴含的语义关系构建具有代表性的视觉原型。在此基础上,本文进一步引入原型一致性对比学习损失,从结构上正则化特征空间,有效缓解视觉表示方差差异带来的不利影响。在 Flickr30K 和 MSCOCO 数据集上的实验结果表明,MASK 在无配对图文匹配任务中取得了优越性能。
