多智能体博弈中的分布式学习:原理与算法

创建时间:2024-10-09 16:41

源自:指挥与控制学报
作者:谭少林,谷海波,刘克新
 

摘要

自主智能决策是未来无人系统发展的核心技术,而博弈学习是实现自主智能决策的关键方法之一。围绕多智能体博弈中分布式学习领域,系统地介绍其基本问题、研究背景及意义;针对连续动作空间博弈与离散动作空间博弈两种典型博弈类型,综述多智能体博弈分布式学习算法的构建及收敛性研究进展;给出博弈学习领域尚待突破的挑战性问题。

在计算机、 通信、 电子、 传感及控制等诸多领域飞速发展的推动下, 现代生产生活工具已经从机械化、 电气化、 信息化, 逐步朝智能化方向发展[1-2]。智能化时代, 不仅意味着单体智能, 即单个机器具备感知、 决策、 控制等方面的智能水平, 也意味着群体智能, 即众多机器、 装备等连接的整体呈现出协同、 涌现等有组织、 系统层次的智能。分布式智能系统是群体智能的典型体现, 由具备收集信息、 作出决策、 产生信息的机器(装备), 通过分布式通信网络连接所形成的整体, 能够以协作的方式完成系统层级的任务。一些代表性的分布式智能系统包括分布式传感网络、 集群机器人作业系统、 智慧交通系统等。

分布式智能系统具备两个典型的特征。1) 局部计算。指系统中每个组成单元需要内嵌某种形式的计算机来满足信息处理、 决策生成等需求。2) 网络通信。指系统各单元通过静态或动态的通信网络互联, 以实现信息交互、 规避冲突等功能。与集中式任务解决方案相比, 分布式智能系统能够规避集中式超大规模计算需求, 在数据隐私保护与安全、 结构灵活性、 功能鲁棒性、 性价比等方面具有显著优势。

分布式智能系统的发展也面临着诸多挑战。在功能层面上, 其中一个核心问题是:各个进行独立决策的单元之间如何通过与相邻单元进行交互实现协同作业目的[3-5]。例如, 在传感器覆盖问题中, 每个传感器需要对其探测区域选取进行决策, 最终目标是最大化整个区域内某一事件的探测概率。那么这些智能化传感器如何进行独立决策, 并依据局部通信进行协同, 则是其功能层面上的核心问题。

分布式智能协同决策问题的研究方法一般分为两类。第1类是分布式优化方法, 即将协同决策问题建模为优化问题:每个单元具有自己独立的动作集合, 各单元之间需要进行动作协同来最大化总体性能指标。在该方法中, 分布式智能系统的组成单元被视为利益无关的执行者, 其目标是调整自身动作, 优化系统性能。第2类方法是多智能体博弈方法。该方法将协同决策问题建模为非合作博弈问题:每个单元具有自己独立的动作集合以及目标函数, 各单元之间需要进行动作协同实现均衡。在该方法中, 分布式智能系统的组成单元是利益相关方, 其目标是调整自身动作, 优化自身收益。

多智能体博弈中的分布式学习的研究得到了快速发展[6-12]。针对连续动作空间博弈和离散动作空间博弈等典型博弈模型, 已经发展了多种典型的分布式学习算法, 并在各类分布式协同决策问题中取得了成功应用。文献[13]从游戏博弈的角度出发, 延伸到作战指挥中, 对智能决策问题展开了详细的探讨。文献[14]考察了陆战对抗中的智能体博弈策略生成方法。而文献[15]系统性地建立了空间轨道博弈的基本概念、 原理与方法。本文旨在对多智能体博弈学习领域所取得的典型结果进行一个阶段性的综述, 阐明各算法的构造方法及收敛性质, 并对该领域尚待突破的挑战性问题进行展望。

 

浏览量:0
收藏