祝贺尹来国同学的论文被人工智能领域旗舰会议ICLR 2026录用

祝贺尹来国同学的论文被人工智能领域旗舰会议ICLR 2026录用

近日，尹来国同学的论文《Multimodal Aligned Semantic Knowledge for Unpaired Image-Text Matching》被人工智能领域重要国际学术会议 ICLR 2026 录用。ICLR 2026 即第十四届国际学习表征会议（The 14th International Conference on Learning Representations），是深度学习、表征学习与人工智能领域具有广泛影响力的顶级学术会议之一，长期关注表征学习、深度神经网络、生成模型、自监督学习、优化方法及多模态学习等前沿方向，汇聚了来自全球高校、科研机构和产业界的优秀研究者。该会议被中国计算机学会（CCF）列为人工智能领域 A 类国际学术会议。

该论文聚焦无配对图文匹配任务。针对现有方法在处理分布外词汇时难以准确建立语义对应关系、不同词汇视觉表示方差差异影响匹配精度等问题，论文提出多模态对齐语义知识方法（Multimodal Aligned Semantic Knowledge, MASK）。该方法利用词嵌入作为桥梁，将文本词语与视觉原型进行关联，从而实现图像与文本模态之间的语义知识对齐；同时，针对分布外词汇，利用词嵌入中的语义关系构建其代表性原型，并通过原型一致性对比学习损失对特征空间进行结构化约束，以提升无配对图文匹配的准确性与鲁棒性。

论文摘要如下：

Multimodal Aligned Semantic Knowledge for Unpaired Image-Text Matching

现有方法通常通过构建跨模态对齐知识来解决无配对图文匹配问题，但在面对分布外（Out-of-Distribution, OOD）词汇时，往往难以识别与其语义相对应的视觉表示。同时，不同词汇对应的视觉表示在分布方差上存在明显差异，也会影响图文匹配的准确性。针对上述问题，本文提出了一种名为多模态对齐语义知识（Multimodal Aligned Semantic Knowledge, MASK）的方法。该方法以词嵌入作为桥梁，将词语与其对应的视觉原型相关联，从而实现图像模态与文本模态之间的语义知识对齐。对于 OOD 词汇，MASK 利用词嵌入中蕴含的语义关系构建具有代表性的视觉原型。在此基础上，本文进一步引入原型一致性对比学习损失，从结构上正则化特征空间，有效缓解视觉表示方差差异带来的不利影响。在 Flickr30K 和 MSCOCO 数据集上的实验结果表明，MASK 在无配对图文匹配任务中取得了优越性能。