一、 主题: 释放预训练语言模型在离线强化学习中的强大能力主讲人: 齐书成摘要: 离线强化学习(RL)旨在利用预先收集的数据集找到一个接近最优的策略。在现实世界的场景中,数据收集可能成本高昂且存在风险;因此,当领域内的数据有限时,离线强化学习就变得尤其具有挑战性。鉴于最近大语言模型(LLMs)取得的进展以及它们的少样本学习能力,本文引入了用于运动控制的语言模型(LaMo),这是一个基于决策变换器的通用框架,...
一、 主题: 抽象推理归纳的时态知识问答主讲人: 董照坤摘要: 在这项研究中,我们解决了在大型语言模型(llm)中增强时间知识推理的挑战。法学硕士经常在这个任务上挣扎,导致产生不准确或误导性的回答。这个问题主要是由于他们处理不断发展的事实知识和复杂的时间逻辑的能力有限。为了克服这些限制,我们提出了抽象推理归纳(ARI)框架,该框架将时间推理分为两个不同的阶段:知识不可知论阶段和基于知识的阶段。该框架为法...
百年大计,教育为本;教育大计,教师为本。2024年9月10日,我们迎来了我国第40个教师节。在这个特殊的日子,孙宇清老师和实验室全体成员聚集在办公楼,共同庆祝教师节。语义计算实验室全体成员为老师送上精心挑选的礼物,同时实验室在校和毕业同学也为老师准备了精美花束。 随后,大家来到办公楼前合影留念,大家脸上都洋溢着欢乐的笑容,共同祝愿我们敬爱的导师孙宇清老师教师节快乐。 ...
一、 主题: 源语言智能体的统一化与模块化训练主讲人: 董照坤摘要: 闭源智能体存在若干问题,比如成本高昂、缺乏透明度以及不具备可复现性,尤其是在处理复杂的交互式任务时这些问题更为突出。这推动了开源替代方案的发展。我们推出了 LUMOS,它是最早用于训练基于开源大语言模型(LLM)的智能体的框架之一。LUMOS 的特点在于其具有可学习性、统一且模块化的架构,配备一个规划模块,该模块能够学习生成高层次的子目标,还有...
6月21日,山东大学语义计算实验室举办了热烈的学术交流会和温馨的欢送会,三位毕业生与实验室的师弟师妹们进行了学术交流和三年来的研究生经验分享。首先黄钿同学从思想、研究生的课题、三年的规划和日常使用的工具四个角度阐述了自己的经验;然后是郑璐阳同学从与老师的日常交流和课题的推进方面提出了自己的经验和见解,同时向大家介绍了毕业论文和小论文相关的一些撰写细节要求;最后,李稳同学为大家分享了研三找工作...