语义计算2024春季讨论班——智能体:开源语言智能体的统一化与模块化训练


一、 主题: 源语言智能体的统一化与模块化训练

主讲人: 董照坤


摘要 

闭源智能体存在若干问题,比如成本高昂、缺乏透明度以及不具备可复现性,尤其是在处理复杂的交互式任务时这些问题更为突出。这推动了开源替代方案的发展。我们推出了 LUMOS,它是最早用于训练基于开源大语言模型(LLM)的智能体的框架之一。


LUMOS 的特点在于其具有可学习性、统一且模块化的架构,配备一个规划模块,该模块能够学习生成高层次的子目标,还有一个基础模块,经过训练后可以在执行模块中利用各种工具将这些子目标转化为行动。这样的设计便于进行模块化升级,并且能够更广泛地应用于各种不同的交互式任务。




主题以大语言模型为中心的智能体在具身指令跟随任务中的组件式分析


主讲人: 齐书成


摘要

具身指令跟随(EIF)是具身学习中的一项关键任务,它要求智能体通过以自我为中心的观察与所处环境进行交互,以完成自然语言指令。最近的研究进展表明,在以框架为中心的方法中大量采用大语言模型(LLMs)来提升包括具身指令跟随在内的具身学习任务的性能。尽管做出了这些努力,但对于从视觉感知到动作执行等各种组件对任务性能的影响,仍然缺乏统一的认识。


为了填补这一空白,本文引入了 OPEx,这是一个全面的框架,它界定了解决具身学习任务所必需的核心组件:观察者(Observer)、规划者(Planner)和执行者(Executor)。通过广泛的评估,我们深入分析了每个组件是如何影响具身指令跟随任务的性能的。


主题通过策略层面的反思与优化进行学习进化


主讲人: 张雨


本文提出了智能体 Pro(Agent-Pro):一种基于大语言模型且具备策略层面反思与优化能力的智能体,它能够从交互经验中学习到丰富的专业知识,并逐步提升其行为策略。具体而言,它包含了一个用于策略进化的动态信念生成与反思过程。与动作层面的反思不同,智能体 Pro 会对过往的行动轨迹和信念进行迭代反思,“微调” 其不合理的信念,以获得更优的策略。此外,采用深度优先搜索来进行策略优化,确保策略收益能够持续提升。


时间和地点:8月27日11:00-12:00 以及下午15:00 - 16:00,线上




图文作者:梁延杰   责任编辑:孙宇清