学术讲座-基于值函数的多智能体强化学习研究

讲座主题：基于值函数的多智能体强化学习研究

讲座时间：2024.6.1 10:00

讲座地点：山东大学软件学院办公楼209会议室

讲座摘要：

多智能体强化学习是一种解决多个智能体在相互作用环境中学习决策的机器学习方法，其融合了强化学习、控制论、博弈论、深度学习等方法，在自动驾驶、交通信号控制、推荐系统等实际任务中取得了令人瞩目的成绩。其中，基于值函数的多智能体强化学习由于其在处理复杂环境以及提高学习稳定性等方面的优势而备受关注。然而，现有的基于值函数的多智能体强化学习方法在面向特定复杂场景时存在传统值分解方式受限、异构智能体建模困难、大规模通信学习的质量不佳、对抗攻击下通信学习的鲁棒性不足等问题。针对上述问题，围绕混合合作竞争任务场景、异构多智能体场景、大规模多智能体场景以及对抗攻击干扰场景这四类难度从小到大的典型场景，从值函数分解、异构智能体建模、大规模通信学习、鲁棒通信学习方面对基于值函数的多智能体强化学习进行深入研究。

报告人简介：

杜威，中国矿业大学计算机科学与技术学院博士，本科毕业于山东大学数学学院。2018年9月开始在中国矿业大学跟随丁世飞教授从事深度学习、强化学习、多智能体系统、图神经网络等相关领域的研究。博士研究生期间，以第一作者或通讯作者在TPAMI,AAAI,TNNLS,PR等顶会顶刊，共发表10余篇高水平论文。主持校级科研创新项目一项，获得授权发明专利一项。曾荣获省级优秀毕业生、研究生国家奖学金、一等学业奖学金、研究生校级优秀学生等奖项。

图文作者：杨磊稳责任编辑：孙宇清