分类:
系列活动
一、 主题: 大型语言模型作为端到端组合优化求解器主讲人: 王子杰摘要: 组合优化(CO)问题是物流、制造等决策场景的核心,传统上需借助特定问题专用算法求解,且这类算法要求深厚的领域专业知识。尽管大型语言模型(LLMs)在自动化解决组合优化问题方面展现出潜力,但现有方法依赖代码生成或求解器调用等中间步骤,限制了其通用性和易用性。本文提出一种新型框架,通过将自然语言问题描述直接映射到解决方案,使 LLMs 能够...
一、 主题: 结合监督学习与强化学习以处理带有部分标签的多标签分类任务主讲人: 齐书成摘要: 传统的监督学习严重依赖人工标注的数据集,尤其是在对数据需求量大的神经网络方法中。然而,各种任务,特别是像文档级关系抽取这样的多标签任务,由于需要特定的领域知识以及类别集合庞大,在进行完全手动标注时面临挑战。因此,本工作着手解决多标签正样本 - 未标注样本学习(MLPUL)问题,即只有一部分正类别被标注的情况。本论...
一、 主题: 释放预训练语言模型在离线强化学习中的强大能力主讲人: 齐书成摘要: 离线强化学习(RL)旨在利用预先收集的数据集找到一个接近最优的策略。在现实世界的场景中,数据收集可能成本高昂且存在风险;因此,当领域内的数据有限时,离线强化学习就变得尤其具有挑战性。鉴于最近大语言模型(LLMs)取得的进展以及它们的少样本学习能力,本文引入了用于运动控制的语言模型(LaMo),这是一个基于决策变换器的通用框架,...
一、 主题: 抽象推理归纳的时态知识问答主讲人: 董照坤摘要: 在这项研究中,我们解决了在大型语言模型(llm)中增强时间知识推理的挑战。法学硕士经常在这个任务上挣扎,导致产生不准确或误导性的回答。这个问题主要是由于他们处理不断发展的事实知识和复杂的时间逻辑的能力有限。为了克服这些限制,我们提出了抽象推理归纳(ARI)框架,该框架将时间推理分为两个不同的阶段:知识不可知论阶段和基于知识的阶段。该框架为法...
一、 主题: 源语言智能体的统一化与模块化训练主讲人: 董照坤摘要: 闭源智能体存在若干问题,比如成本高昂、缺乏透明度以及不具备可复现性,尤其是在处理复杂的交互式任务时这些问题更为突出。这推动了开源替代方案的发展。我们推出了 LUMOS,它是最早用于训练基于开源大语言模型(LLM)的智能体的框架之一。LUMOS 的特点在于其具有可学习性、统一且模块化的架构,配备一个规划模块,该模块能够学习生成高层次的子目标,还有...