基于大语言模型多智体的综述:进步和挑战!

创建时间:2024-05-07 15:20

源自: 人工智能前沿讲习

在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。

 

24年2月论文“Large Language Model based Multi-Agents: A Survey of Progress and Challenges“。

大语言模型(LLM)在一系列任务中取得了显著的成功。由于LLM令人印象深刻的规划和推理能力,它们已被用作自动执行许多任务的自主智体。最近,基于一个LLM作为单个规划或决策智体的发展,基于LLM的多智体系统在复杂问题解决和世界模拟方面取得了长足的进展。为了向社区提供这一动态领域的概述,提出这项调查,深入讨论基于LLM的多智体系统的基本方面以及挑战。

 

目标问题:基于LLM的多智体模拟什么域和环境?这些智体是如何被介绍的,如何沟通的?哪些机制有助于智体能力的增长?对于那些有兴趣深入研究这一研究领域的人,还总结了常用的数据集或基准,以便他们能够方便地访问。

 

基于单个LLM智体的激励能力,已经提出了LLM多智体利用多个智体的集体智能和专业知识和技能。与使用单个LLM驱动智体的系统相比,多智体系统通过以下方式提供了高级功能:1)将LLM专门化为各种不同的智体,每个智体都具有不同的功能;2)这些不同的智体之间能够进行交互,有效地模拟复杂的现实世界环境。在这种情况下,多个自主智体协同参与规划、讨论和决策,反映了人类群体在解决问题任务中的合作性质。这种方法利用了LLM的沟通能力,利用了它们生成文本进行沟通和对文本输入做出反应的能力。此外,它还利用了LLM在各个域的广泛知识及其专门从事特定任务的潜力。最近的研究表明,在利用LLM多智体解决各种任务方面取得了有希望的结果,如软件开发[Hong2023;Qian2023]、多机器人系统[Mandi2021;Zhang2023c]、社会模拟[Park2022]、策略模拟[Xiao2023,Hua2023]和游戏模拟[Su2023c;Wang2023c]。由于该领域跨学科研究的性质,它吸引了各种各样的研究人员,从AI专家扩展到社会科学、心理学和政策研究专家。研究论文的数量正在迅速增加,如图所示:基于LLM的多智体研究领域的发展趋势。对于问题解决和世界模拟,将当前的工作分为几个类别,并每隔3个月统计不同类型的论文数量。每个叶节点的数字表示该类别的论文数量。

 

 

深入研究LLM-MA系统的复杂性,其中多个自主智体参与类似于问题解决场景中的人类群体动力学的协作活动。要解决的一个关键问题是,这些LLM-MA系统如何与操作环境以及集体目标相一致。为了阐明这一点,如图展示了这些系统的一般架构。本文剖析了这些系统的操作框架,重点关注四个关键方面:智体环境接口、智体分析、智体通信和智体能力获取。

 

 

操作环境定义了LLM-MA系统部署和交互的特定上下文或设置。例如,这些环境可以像软件开发[Hong2023]、游戏[Mao2023].和各种其他域,如金融市场[Li2023g],甚至社会行为建模[Park2023]。基于LLM的智体在环境中感知和行动,进而影响其行为和决策。例如,在《狼人杀》游戏模拟中,沙盘环境设置了游戏的框架,包括从白天到晚上的转换、讨论时间、投票机制和奖励规则。智体如狼人和探索者,执行特定的动作,如杀死或检查角色。在这些操作之后,智体接收来自环境的反馈,通知他们游戏的当前状态。这些信息指导智体随时间的推移调整策略,以应对不断发展的游戏和与其他智体的互动。

 

智体环境接口是指智体与环境交互和感知环境的方式。正是通过这个界面,智体了解他们的周围环境,做出决定,并从他们的行动结果中学习。将LLM-MA系统中的当前接口分为三种类型,沙盘、物理和无,如表所示。

沙盘是指由人类构建的模拟或虚拟环境,在这里,智体可以更自由地进行交互,并尝试各种行动和策略。这种接口广泛应用于软件开发(代码解释器作为模拟环境)[Hong2023]、游戏(使用游戏规则作为模拟环境的)[Mao2021]等。物理是一种真实世界的环境,在该环境中,智体与物理实体进行交互,并遵守真实世界的物理和约束。在物理空间中,智体通常需要采取能够产生直接物理结果的行动。例如,在扫地、做三明治、打包食品杂货和整理橱柜等任务中,机器人智体需要反复执行动作,观察物理环境,并不断完善其动作[Mandi2023]。最后,无指的是没有特定外部环境,智体不与任何环境交互的场景。例如,许多应用[Du2023;Xiong2023;Chan2023]利用多个智体来辩论一个问题以达成共识。这些应用程序主要关注智体之间的通信,不依赖于外部环境。

 

在LLM-MA系统中,智体是由他们的特征、行为和技能来定义的,这些特征、行动和技能是为满足特定目标而定制的。在各种系统中,智体扮演不同的角色,每个角色都有全面的描述,包括特征、能力、行为和约束。例如,在游戏环境中,智体可能被描述为具有不同角色和技能的玩家,每个角色和技能对游戏目标的贡献不同。在软件开发中,智体可以扮演产品经理和工程师的角色,每个人都有指导开发过程的责任和专业知识。同样,在辩论平台中,智体可能被指定为支持者、反对者或裁判,每个人都有独特的功能和策略来有效履行其职责。这些概要(profile)对于定义智体在各自环境中的相互作用和有效性至关重要。下表列出了最近LLM-MA工作中的智体概要文件:根据当前的工作动机、研究领域和目标对其进行了分类,并从智体环境接口、智体评测、智体通信和智体能力获取等方面对每项工作进行了详细介绍。“-”表示未具体提及某一特定元素。

 

关于智体评测方法,将其分为三种类型:预定义的、模型生成的和数据派生的。在预定义的情况下,智体配置文件由系统设计者明确定义。模型生成方法通过模型创建智体概要文件,例如大语言模型。数据派生方法包括基于预先存在的数据集构建智体概要文件。

 

LLM-MA系统中智体之间的通信是支持集体智能的关键基础设施。从三个角度来剖析智体通信:1)通信范式:智体之间交互的风格和方法;2) 通信结构:多智体系统中通信网络的组织和架构;以及3)智体之间交换的通信内容。

 

通信范式:当前LLM-MA系统主要采用三种范式,合作、讨论和竞争。合作智体共同努力实现一个或多个共同目标,通常交换信息以增强集体解决方案。讨论范式用于智体进行辩论互动,提出和捍卫自己的观点或解决方案,并批评他人的观点或方案。这种模式非常适合达成共识或更精细的解决方案。有竞争力的智体朝着自己的目标努力,而这些目标可能与其他智体的目标相冲突。

 

通信结构:如图显示了LLM-MA系统中的四种典型通信结构。分层通信是分层结构的,每个级别的智体都有不同的角色,主要在其层内或与相邻层进行交互。[Liu2023]介绍了一种称为动态LLM智体网络(DyLAN)的框架,该框架将智体组织在一个多层前馈网络中。这种设置促进了动态交互,结合了推理时间的智体选择和早期停止(early-stopping)机制等功能,共同提高了智体之间的合作效率。去中心化通信在对等网络上运行,在对等网络中,智体直接相互通信,这是世界模拟应用程序中常用的结构。中心化通信涉及协调系统通信的中央智体或一组中央智体,其他智体主要通过该中央节点进行交互。MetaGPT[Hong2023]提出了共享消息池,提高通信效率。这种通信结构维护了一个共享消息池,智体在其中发布消息并根据其配置文件订阅相关消息,从而提高了通信效率。

 

 

通信内容:在LLM-MA系统中,通信内容通常采用文本的形式。具体内容变化很大,并且取决于特定的应用。例如,在软件开发中,智体可以就代码段相互通信。在像《狼人杀》这样的游戏模拟中,智体可能会讨论他们的分析、怀疑或策略。

 

智体能力获取是LLM-MA中的一个关键过程,使智体能够动态学习和发展。在这种情况下,有两个基本概念:智体应该从中学习以增强其能力的反馈类型,以及智体调整自己以有效解决复杂问题的策略。

 

反馈:反馈涉及智体收到的关于其行动结果的关键信息,帮助智体了解其行动的潜在影响,并适应复杂和动态的问题。在大多数研究中,提供给智体的反馈是文本的。根据智体接收此反馈的来源,可以将其分为四种类型:1)来自环境的反馈,例如来自真实世界环境或虚拟环境的反馈[Wang2023b]。它在大多数LLM-MA中普遍适用于解决问题的场景,包括软件开发(智体从代码解释器获得反馈)和嵌入式多智体系统(机器人从真实世界或模拟环境获得反馈)。2)智体交互反馈是指来自其他智体的判断或智体通信的反馈。这在解决问题的场景中很常见,比如科学辩论,智体学会通过沟通批判性地评估和完善结论。在游戏模拟等世界模拟场景中,智体学习基于其他智体之间先前的交互来细化策略。3)人类反馈直接来自人类,对于使多智体系统与人类的价值观和偏好保持一致至关重要。这种反馈被广泛用于大多数“人在环”应用程序[Wang2021]。最后4)无反馈。在某些情况下,不会向智体提供反馈。这种情况经常发生在专注于分析模拟结果而非智体规划能力的世界模拟工作中。在这种情况下,如传播模拟,重点是结果分析,因此,反馈不是系统的组成部分。

 

智体对复杂问题的适应:为了增强其能力,LLM-MA系统中的智体可以通过三种主要解决方案进行适应。1)记忆。大多数LLM-MA系统利用智体的记忆模块来调整其行为。智体将以前交互和反馈的信息存储在他们的记忆中。在执行行动时,他们可以检索相关的、有价值的记忆,特别是那些包含过去类似目标的成功行动记忆,如[Wang 2023b]所强调的。这一过程有助于加强他们目前的行动。2)自我进化。在基于记忆的解决方案中,智体可以通过修改自己来动态地自我进化,例如改变其初始目标和规划策略,并根据反馈或通信日志来训练自己,而不是仅仅依靠历史记录来决定后续行动。[Nasimento2023]提出了一种自我控制循环过程,允许多智体系统中的每个智体进行自我管理并自适应于动态环境,从而提高多智体的协作效率。[Zhang2023b]介绍了ProAgent,它可以预测队友的决策,并根据智体之间的通信日志动态调整每个智体的策略,促进相互理解,提高协作规划能力。[Wang2023a]讨论了通过通信学习(LTC)范式,使用多智体的通信日志生成数据集来训练或微调LLM。LTC通过与环境和其他智体的互动,实现了智体的持续适应和改进,打破了上下文学习(ICL)或监督微调的限制,这些限制没有充分利用在与环境和外部工具互动过程中收到的反馈进行持续训练。自我进化使智体能够自主调整其个人概要或目标,而不仅仅是从历史互动中学习。3)动态生成。在某些情况下,系统可以在运行过程中动态生成新的智体[Chen2023a;Chen2023c]。这种能力使系统能够有效地扩展和适应,因为它可以引入专门为解决当前需求和挑战而设计的智体。

 

随着LLM-MA与更多智体的扩展,管理各种智体的复杂性不断增加已成为一个关键问题。智体编排成为一个关键挑战,并在[Moura2023;Dibia2023]开始受到关注。

 

三个开源多智体框架:MetaGPT[Hong2023]、CAMEL[Li2021 3b]和Autogen[Wu2020 3a]。它们都是利用语言模型解决复杂任务的框架,侧重于多智体协作,但它们在方法和应用方面有所不同。

 

MetaGPT旨在将人工工作流过程嵌入到语言模型智体的操作中,从而减少复杂任务中经常出现的幻觉问题。它通过将标准操作程序(SOP)编码到系统中,并使用装配线方法将特定角色分配给不同的智体来实现这一点。

 

CAMEL,或称通信智体框架,旨在促进智体之间的自主合作。它使用了一种名为inception prompting的新技术来引导会话智体完成与人类目标一致的任务。该框架还可以作为生成和研究会话数据的工具,帮助研究人员了解交际智体的行为和互动方式。

 

AutoGen是一个通用框架,允许使用语言模型创建应用程序。它的独特之处在于其高度的定制,使开发人员能够使用自然语言和代码对智体进行编程,以定义这些智体如何交互。这种多功能性使其能够在不同的领域使用,从编码和数学等技术领域到娱乐等以消费者为中心的领域。

 

最近,[Chen2023c;Chen2023a]介绍了动态多智体协作的框架,而[Zhou2023a;Li2023h;Xie2023]介绍了构建自主智体的平台和库,强调了它们在任务解决和社会模拟中的适应性。

如下表是LLM- MA的数据集和基准:

 

 

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

 

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。

浏览量:0
收藏