从规则驱动到群智涌现: 多机器人空地协同研究综述
源自:自动化学报
作者:郝肇铁, 郭斌, 赵凯星, 吴磊, 丁亚三, 李哲涛, 刘思聪, 於志文.
摘 要
多机器人空地协同系统作为一种在搜索救援、自主探索等领域具有广泛应用前景的异构机器人协作系统, 近年来受到研究者的高度关注. 针对限制空地协同系统自治性能的低智能性、弱自主性挑战, 如何增强个体智能、提高群体协同自主性是加快空地系统应用落地亟需解决的关键问题. 近年来, 随着以深度学习、群体智能为代表的人工智能(Artificial intelligence, AI)算法在感知、决策等领域的不断发展, 将其应用于空地协同系统成为了当前的研究热点. 基于空地协同的自主化程度, 总结从规则驱动到群智涌现不同协作水平下的空地协同工作, 强调通过增强个体智能涌现群体智慧. 同时, 构建并拓宽空地协同群智系统的概念及要素, 阐述其自组织、自适应、自学习与持续演化的群智特性. 最后, 通过列举空地协同代表性应用场景, 总结空地协同所面临的挑战, 并展望未来方向.
关键词
空地协同 / 群智涌现 / 人工智能 / 自主性
机器人被誉为“制造业皇冠顶端的明珠”[1], 以智能化和自主化为主要特征的机器人受到世界各科技强国越来越多的重视[2]. 然而, 单机器人的通体功能、任务执行效率和容错能力都相对有限, 难以适应复杂任务与动态环境. 因此, 许多研究者开始将目光转向任务执行效率更高且具备环境自适应性的多机器人集群系统[3−5]. 由空中机器人和地面机器人组成的异构多机器人协作系统是一种典型的多机器人集群系统, 它结合了空中群体与地面群体的互补优势, 将地面机器人运动的二维平面扩展到三维空间, 利用空中机器人灵活机动[6]、视角广阔[7]的优势, 结合地面机器人高负载、强计算推理的能力[8], 在任务执行效率、环境自适应性和容错能力等方面均表现出较强优势, 已成功代替人类在危险、污秽、极端温度的环境中完成搜索救援、自主探索、巡逻修检等任务[9−13].
然而, 面向复杂任务与动态环境, 现有的空地协同系统仍面临低智能性、弱自主性等挑战. 在当前的研究工作中, 空地机器人依次执行人类专家设定的任务, 比较典型的是地面机器人利用空中机器人绘制的地图执行导航任务[14−16]. 在此过程中, 空地机器人仅完成规定的任务, 并没有实现紧密配合, 协同性体现不强, 也无法在动态环境中完成复杂任务. 基于此, 将人工智能 (Artifcial intelligence, AI) 技术和生物群智理论应用于空地协同系统是提升个体智能和群体智慧的有效方案. 尽管近年来以深度学习为代表的AI算法在机器人感知[17]、决策[18] 和控制[19]等领域得到广泛应用, 但由于空地终端资源受限且对任务实时性要求高, AI算法往往很难直接部署于空地终端. 与此同时, 受自然界生物种群社会活动的启发, 国内外研究者在多机器人系统的研究中开始引入生物群智的研究[20]. 但由于空地机器人的能力、结构和行动空间具有高度异质性, 基于生物群智的多机器人协作研究在应用于空地协同领域时, 仍面临着需额外考虑系统复杂性、动态性、时变性和耦合性等挑战[15, 21−22].
此前的研究工作从控制优化的角度对空地协同工作进行总结[23−27], 其主要强调利用控制理论解决无人驾驶飞行器(Unmanned aerial vehicle, UAV)和无人驾驶地面车辆(Unmanned ground vehicle, UGV)的集群协同问题, 并未涉及能够赋予空地系统智能的算法, 也未曾对空地协作机理进行系统性总结. 相比之下, 本文拓展空地协同系统的概念及其组成要素, 并探讨AI技术如何提升空地个体能力、生物群智机理如何提高空地群体协同自主性, 以此应对低智能性、弱自主化的挑战. 具体地, 本文重点关注以下方面:
1) 个体智能增强: 基于先验知识与专家监督的空地协同研究工作个体智能性弱, 需要人类专家在任务执行过程中及时监督与指挥. 本文侧重调查AI赋能的空地主体, 通过将AI算法部署于空地机器人为其赋予高级智能, 帮助空地系统自主高效地理解环境与执行任务.
2) 群体智慧涌现: 基于人类专家既定规则驱动的空地协同过程面临弱自主性挑战. 而基于生物群落的社会关系研究表明[20, 28], 若干个智能有限的个体通过相互协作能够涌现出一种群体智慧, 即自组织、自适应、自学习与持续演化等行为. 本文将关注生物群智理论如何提高空地协同系统的环境适应性、任务执行能力和应用范围.
3) 空地协同系统框架: 现有空地协同工作缺乏体系化的总结整理[29−30], 本文将对空地系统进行系统性总结. 在此基础上构建空地协同群智系统, 旨在提高空地协同自主化与智能化水平.
图1展示了本文各节的组织关系. 具体地, 第1节概述空地协同群智系统的基本概念与要素; 空地机器人的基本能力是空地协作的基础, 空地协同是将空地机器人的互补能力进行有效整合, 所以第2节介绍AI算法赋能的五种空地协同关键能力, 并侧重分析在空地协同的背景下, 空地个体在协同过程中所发挥的作用; 针对空地机器人如何协同的问题, 将在第3、4节分别介绍规则驱动的空地协同和群智涌现的空地协同; 第5节总结空地协同的应用场景; 第6节梳理空地协同所面临的挑战, 并对未来研究进行展望; 第7节总结全文.
图 1 全文组织结构图
1. 空地协同群智系统概述
空地群智系统是群智协同的基础, 本节首先介绍空地协同相关概念并分类, 然后引出空地协同群智系统及其基本要素, 最后分析空地协同群智系统特点. 本节是全文工作的基础, 后文将频繁使用本节所定义的概念. 本文对以下概念做特殊说明:
1) 合作、协作与协同: Parker[31]对合作(Cooperation)、协作(Coordination)与协同(Collaboration)三个概念分别进行定义, 但在综述本文的过程中未发现此前相关工作对其进行区分, 三者均表示空地机器人系统为达到统一目的而在行为上进行相互协调. 因此, 除特别声明外, 在本文所关注的空地协同研究中三个概念不做区别.
2) 群体与团队: Luckcuck等[32]将群体定义为若干个能够表现出相同行为的同构个体的组合; 而团队中的个体均表现不同的行为, 体现异构特性. 本文根据个体所处的环境域划分不同群体, 包括空中群体和地面群体; 团队是由空中群体和地面群体组合成的统一联盟, 体现异构特性. 本文对于群体内部的异构个体不做讨论(例如, 地面群体可能包含腿式机器人和轮式机器人).
3) 机器人与智能体: 目前学术界对机器人的定义还未形成共识, 本文遵循Lin等[33]对机器人的定义, 即有感觉、思考与行动能力的机器. Russel和Norvig[34]将智能体定义为能够通过自主感知决策与环境产生交互的软硬件实体, 其概念更加广泛, 不仅仅局限于物理实体, 还包括软件实体等. 而本文关注于空地机器人的硬件部署, 为避免歧义, 全文统一用词为机器人.
1.1 空地协同基本概念
空地协同最早是在军事作战中作为一种战术被提出的[35], 它是指航空兵与地面部队根据各自任务在作战行动上进行协同. 在第二次世界大战中, 德国成功地将空地协同应用于战场: 战机首先俯冲轰炸敌军, 地面部队随后推进战线. 虽然最初的空地协同严重依赖于士兵操纵、自主化程度低, 但这种将战场扩展到三维空间的作战模式对传统的二维平面式作战是一种降维打击. 尽管许多工作[23−27]将UAV与UGV之间的协作表述为空地协同, 但事实上空地机器人并不限于UAV和UGV, 还包括广泛的具备感知、计算、运动等能力的一切空地主体(如飞艇、腿式机器人等). 在物联网领域, 研究人员利用UAV为地面节点提供计算与通信上的支持[36−37], 但地面节点往往是静态的且空地之间没有相互的信息交流. 综合考虑前人工作, 本文将空地协同定义为: 空中群体与地面群体为了统一的目标, 在一定的环境下进行协作, 相互补充、相互促进地自主完成既定任务. 其中, 群体由若干具备感知、计算与运动能力的个体组成, 并且群体内部和群体间都能够进行信息交流. 空地机器人的能力是空地协同的基础, 空地协同旨在研究如何在空地异构性的挑战下有效整合能力互补的空地机器人以最大化效率完成任务. 而根据空地协同自主化水平的不同, 本文将空地协同分为规则驱动的空地协同和群智涌现的空地协同, 第3、4节将具体介绍.
为更细粒度地分析空地系统, 如图2所示, 本文从协同形式、协同的任务粒度和决策的拓扑结构三个维度对空地协同进行分类.
图 2 空地协同分类
按照空地主体协同的基本形式, 可以将空地协同分为互助型协同和互补型协同. 互助型协同是指空地群体在同一任务中所发挥的功能以及承担的角色均相同. 例如, 仅用地面群体完成建图任务效率过低, 在空中群体的帮助下共同完成时间效率会明显提升[38]. 互补型协同是指利用空地群体的各自优势相互补充、相互配合完成目标任务. 相较于互助型协同, 其能够充分发挥个体优势, 涌现出“1 + 1 > 2”的群体智慧. 例如, UAV提供航拍地图, UGV利用航拍地图规划最短路径将救援物资及时运输到救灾点, 二者在救灾任务中的作用迥别[39].
按照空地主体协同任务的粒度大小, 可以分为微观任务协同和宏观任务协同. 微观任务协同直接执行可量化的单个任务, 它往往依赖于专家设计, 空地协同系统仅负责执行任务, 不具备“自主思考”能力. 例如, 救援任务中利用目标检测算法检测受伤人员[9]. 宏观任务协同则执行由若干个微观任务组成的复合型(即“宏观”)任务, 需要空地协同系统自主决策在完成任务过程中所涉及到的环节与技术, 并实现自组织、自适应调整, 具有高度的智能性. 例如, 在筑墙任务中, 空地系统自主决定如何调度机器人、如何选取石砖以及如何定位等[40]. 目前研究主要关注于宏观任务分解之后的微观任务, 讨论宏观任务的工作较少, 本文将对微观任务协同和宏观任务协同进行详细总结.
按照空地主体决策是否依赖于中心节点, 可将其分为分布式协同和集中式协同. 分布式协同中各主体分散感知、异步计算、分布式执行任务[41], 不依赖于中心节点. 例如, 通过分布式协同通信执行环境建图任务[42]. 集中式协同通过一个中心节点下发任务给各个子节点, 子节点执行任务, 整个计算过程是在中心节点完成, 各子节点仅感知环境与执行任务, 高度依赖于中心节点. 例如, 依赖于集中式工作站的地下探索[30].
1.2 空地协同群智系统
空地协同系统是由空中群体和地面群体组成的能够按照某种协作机理在环境中执行任务的系统. 而在空地协同群智系统中, 若干个高度异质、能力互补的空地机器人通过个体智能的增强和群体智慧的汇聚, 能够涌现出自组织、自适应、自学习与持续演化特性的群体智慧, 在动态环境中更加高效鲁棒地完成复杂的空地任务. 相比之下, 空地协同群智系统更侧重利用AI算法为空地个体赋予智能, 借助生物群智理论涌现出更高层次的群体智慧行为, 强调空地主体智能化、空地任务群智化、作业环境动态性与协同机理群智化. 图3为空地协同群智系统示意图.
图 3 空地协同群智系统
1.2.1 智能主体
空地主体明确了完成协同任务、构成空地系统的物理实体, 包括空中主体与地面主体. 具体地, 空中主体包括根据动力学原理起飞的各式UAV (例如固定翼机、旋翼机)和根据相对空气密度升空的浮空器(例如无人飞艇、无人热气球); 而地面主体主要包括各种UGV (例如履带式、轮式)和腿式机器人(例如四足机器人、人形机器人). 各主体均具备通信、感知、定位、决策计算与控制能力, 其中, 通信是空地团队协作的基础, 感知用于理解外界环境, 定位确定个体与环境的相对位置, 决策旨在确定任务执行的方式, 控制是具体的算法执行, 本文将在第2节详细讨论空地主体所具备的能力. 空地主体依靠这些能力能够对外界环境变化做出反应, 具有一定的智能性与自主性, 会主动执行最优的行动[34].
空地主体能力各异且相互补充, 空中主体往往机动灵活, 拥有广阔的视角, 能够覆盖大面积区域, 不受地形限制, 可快速部署偏远地区, 成本低廉且功能模块化, 但其续航时间受电池限制, 负载与计算资源也有限; 而地面主体通常负载较强, 能够搭载更多的计算设备与储备能源, 但却以降低机动性和增加成本为代价. 空地主体相互补充形成联盟后, 其协同系统能力更加强大, 可执行更多的任务.
1.2.2 群智任务
空地协同群智系统是典型的任务驱动型系统, 完成群智任务是其首要目标. 空地群智任务需要发挥团队所有成员的智慧通力协作完成, 群智任务的复杂度直接影响完成任务所需的空地主体数量和类型[43]. 群智任务通常不可直接执行, 如搜索救援、环境探索等任务, 需要空地团队自主决策并将其分解为若干个可具体执行的子任务, 各子任务相互独立或顺序依赖(如地图构建、环境探索等子任务).
1.2.3 动态环境
动态环境是空地主体协作过程中所处的场所, 空地主体在协作过程中会与外界环境相互作用、相互影响, 环境同时也会影响空地主体决策. 空地主体所处的外部环境有所不同, 空中主体处于干扰较少的空际, 飞行自由灵活, 但是也有相关法律会限制航空器的飞行时间、空域、高度、尺寸与载重 1. 值得注意的是, 由于相关法律法规的限制, 民用无人机飞行高度有一定限制, 要求作业高度不得超过120 m, 因此现有大部分空地协同研究与应用主要集中于超低空, 本文也是集中对这部分工作进行综述. 地面主体处于地形限制较多的地表[26], 可分为结构化地形(例如规整的马路)和非结构化地形(例如地震后坍塌的建筑场所). 结构化地形固定可预知, 易于轮式机器人执行任务; 非结构化地形约束较多, 腿式机器人更适合在这样的条件下工作.
一些工作[40, 44]通常假设环境静态并已知, 然而空地主体所面临的环境往往复杂多样且会时刻变化. 例如, 在地下隧道、地震受损建筑、核泄露现场等环境中, 通信设施遭到破坏, 地形结构凹凸不平, 对空地主体的自治能力提出挑战. 此外, 复杂的天气与光线变化也会导致空地主体所装备的传感器感知出现偏差, 这就要求空地主体的感知、决策能力具有高度的鲁棒性, 能够针对不同的环境实现自适应.
1.2.4 空地协同机理
空地主体行为上的协同是完成群智任务的关键, 各主体动作越协调, 空地系统的整体性能越强、任务完成效率越高. Kiener和Stryk[45]为多机器人协作过程设定了四个标准化模块: 任务分解、联盟形成、任务分配、任务执行. 由于空地协同群智系统明确了空地主体的类型及其社会关系, 已蕴含联盟形成(多个机器人组成联盟合作)的思想, 并且一个高度自主化的群智系统能够主动发现任务, 因此, 如图4所示, 本文从认知、决策、动作三个层面出发将空地协同过程分为四个模块: 任务挖掘、任务分解、任务分配、任务执行. 其中, 任务挖掘是指发现并建模空地任务; 任务分解是指空地系统将宏观任务分解为若干个可具体执行的微观任务; 任务分配是指在任务与执行主体之间建立映射关系; 任务执行是指主体去完成各自的任务. 任务挖掘是空地群智系统层面的认知行为, 依靠各式传感器进行主动感知, 通过计算推理将抽象思维表达为具体任务; 任务分解与任务分配是空地系统层面的统一规划, 通过决策、规划与调度将任务细分到各执行主体; 而任务执行是动作层面的决策行动, 面向具体应用场景, 在第2节中会具体介绍. 现有大部分空地协同工作都遵循此过程, 只是自主化程度有所区别, 第3节将根据空地团队协作的自主化程度划分不同的协同等级. 不同于规则驱动, 空地协同群智系统能够通过增强个体能力, 利用自然群智协作机理汇聚互补的空地个体能力来提高协同自主性, 涌现出自组织、自适应、自学习与持续演化特性的群体智慧, 第4节将介绍空地协同群智系统的群智涌现能力.
图 4 空地协同流程
1.3 空地协同群智系统特点
空地协同群智系统是由若干个高度异质、能力互补的空地机器人组成的多机器人协同系统, 通过借鉴人工智能技术与自然群智机理, 增强个体智能并汇聚群体智慧, 涌现出自组织、自适应、自学习与持续演化特性的群体智慧, 并最终能够在动态环境中高效鲁棒地执行复杂任务. 具体来说, 空地协同群智系统具备以下特点:
1) 自组织: 自然界与人类社会存在着许多自组织现象[46], 即大量无序个体通过局部相互作用自发地表现出某种整体秩序. 与之类似, 空地主体也可通过局部相互作用主动地调整自身行为以协调群体行动, 执行更加复杂的任务. 同时, 每个空地主体均能够实时共享位置信息与感知数据, 并记录本体与外部环境的状态信息, 最终维护其个体数据库. 当任意两个主体进行通信时, 其会互相更新各自的信息.
2) 自适应: 空地团队常常在复杂的动态环境中工作, 仅依赖专家预先设计的规则难以适应动态环境. 空地协同群智系统能够通过选择最优策略调整自身行为来适应动态环境, 例如自适应感知、自适应形态. 在自适应过程中, 可拓展性是空地协同群智系统实现自适应行为不可或缺的一部分. 空地系统能够根据群体数量变化自适应地调整策略, 不会因某个主体的故障或个体数目的增加影响团队功能.
3) 自学习: 空地群智任务通常具有强耦合性、长时间跨度、高复杂性等特点, 规则驱动的空地协同难以胜任此类任务. 空地协同群智系统基于历史经验和知识, 通过强化学习等机制主动增强其自身能力, 提高系统的自主化水平, 以在不同环境下能够做出最优决策.
4) 持续演化: 受生物演化思想的影响, 持续演化特性被引入空地协同群智系统的设计之中. 持续演化特性旨在持续优化历史经验、知识和策略以应对新式任务与环境的挑战, 并在空地协同群智系统全生命周期内不断提高群智系统自组织、自适应和自学习的能力. 持续演化特性要求空地协同群智系统具备实时可控性, 能够利用人类智慧随时监督和引导空地系统, 以提高空地系统的任务执行效率与对复杂环境和任务的适应性.
2. 空地协同主体能力
空地协同是在空地异构性挑战之下将具有互补能力的空地个体进行有效整合的过程, 空地个体的智能程度越高, 空地团队的整体功能也越强大. 通信、感知、定位、决策与控制是空地主体所具备的关键能力, 将AI算法部署于空地主体能够有效提高其自治性与智能性. 本节重点介绍AI赋能的空地主体能力, 并分析在空地协同背景下空地个体能力在协同过程中所发挥的作用.
2.1 通信
通信是指空地主体建立信息交流的过程, 是空地协同的基础. 只有建立信息交流之后才能协作执行任务, 因此空地异构机器人之间是否能够有效通信是鉴别其实现协同的依据. 通信的内容可以是视频流、地图、点云、指令等不同类型消息[29], 空地系统要求通信链路能够准确、迅速、安全地传输这些内容, 故而通信链路应具备高带宽与低延迟的性能, 并且能够随环境变化支持动态网络[42], 例如, 当发生失联现象时满足间隙通信要求. 此外, 空地机器人常常在通信受限的环境中作业, 如震后的灾区、地下隧道等地, 这时空地协同只能依靠自身所携带的通信设备进行通信. 但由于空地机器人速度不一致, 很容易导致其空间分布不均, 超过最大通信范围则无法通信, 即使在通信范围内, 空地机器人相距越远信号质量越差、延时越高, 因此, 如何在空地机器人速度异构的挑战下提高通信质量、减少通信资源的开销是空地协同研究中极具现实意义和挑战性的问题. 事实上, 空地协同过程中所处的环境会发生动态改变, 如果在不同态势下, 空地机器人以固定的时间间隔传输固定的消息内容, 会造成通信资源的浪费, 因此, 空地机器人自主地选择通信时刻并确定最有价值的通信内容对于减少通信资源开销至关重要. 与此同时, 当多个空地机器人协同作业时, 由于单播、广播通信等通信方式存在通信资源消耗过大的问题, 而且与所有团队成员通信并不必要, 只需要选择最有价值的通信对象, 因此选择合适的通信对象也需要深入研究. 此外, 空地通信链路应能够随环境变化支持动态网络, 例如当发生失联现象时满足间隙通信要求.
Yan等[47]按照信息传播方式将通信分为隐式通信和显式通信, 隐式通信通过感知推理得到信息, 而显式通信作为目前空地交流的主要方式, 其可直接进行信息交换. 显式通信根据传输媒介可分为有线通信和无线通信. 有线通信是指利用光缆、电缆等可见媒质进行通信, 其技术成熟、可靠性高、保密性强, 常用于与人类主管的控制站通信[9, 48], 但其通常只能连接到单个地面主体, 并且物理媒介长度有限会严重限制空地主体的活动范围. 无线通信利用电磁波等不可见媒质进行通信, 由于其高度的灵活性与可扩展性, 已成为目前空地主体之间主要的通信方式. 根据无线通信过程中是否依赖于中心节点, 可将空地通信分为集中式通信和分布式通信. 在此基础上, 能够动态调整内部网络拓扑结构的移动自组织网络(Mobile ad-hoc network, MANET)也受到研究者越来越多的关注. 各种无线通信方式示意图如图5所示, 空地主体通信方式总结见表1.
图 5 空地机器人无线通信((a) 集中式; (b) 分布式; (c) 移动自组织网络)
1) 集中式通信: 依赖于人类主管的控制站[48−50]或计算资源丰富的地面平台[51]等中心节点, 各空地主体只能通过中心节点进行信息交流. 空地主体首先将信息传递给中心节点, 信息通常以某种消息格式定义通信的对象和内容, 中心节点接收到信息后根据消息中定义的通信对象将通信内容下发给对应的主体. 由于集中式通信将所有信息都汇聚到一个中心节点进行处理和决策, 决策集中, 但仅适用于信息量较小、通信环境良好的情况. 此外, 如果中心节点受到攻击或通信中断, 空地系统决策能力快速下降[52], 甚至做出危险决策. 此外, 由于地面中心节点往往是静止或低速移动的, 而为保证通信, 空中机器人只能在中心节点附近作业, 会限制空地机器人的活动范围, 影响任务执行效率.
表 1 通信方式分析
通信方式 |
设备 |
常见任务 |
常见环境 |
通信范围 |
特点 |
研究代表 |
有线通信 |
光缆 |
搜索救援 |
范围有限的室外区域 |
取决于光缆长度 |
准确性高, 不易出错, |
|
集中式 |
ZigBee WiFi节点 |
数据收集 |
室内, 范围有限的 |
0 ~ 100 m |
依赖于中心节点, 准确性高, |
|
分布式 |
WiFi节点 |
大规模建图 |
室外 |
与空地机器人数目成正比 |
不依赖中心节点, 鲁棒性强, |
|
移动自组织网络 |
IEEE 802.11中继器 |
搜索救援 |
隧道等通信设施 |
可随节点个数增加 |
不依赖中心节点, 抗干扰能力强, |
2) 分布式通信: 不依赖于中心节点, 各空地主体之间直接进行点对点的信息交流. 分布式通信包括单播[42, 53−54] (一个发送方给一个接收方发送消息)、广播[55] (一个发送方给所有接收方发送消息)等方式. 分布式通信将信息分散到多个节点进行处理和决策, 避免了中心节点的脆弱性, 具有抗干扰能力强、可靠性和容错性高等优点. 在空地协同过程中, 分布式通信可增强系统的鲁棒性和抗打击能力, 使得即使部分节点受到攻击或损坏, 其他节点仍能继续协同决策. 但由于空地机器人之间的视角差异, 每个机器人决策结果也可能存在较大差异, 这就需要空地机器人进行协商决策, 而这又导致了信息处理速度慢、需要大量节点协同工作的问题, 尤其是遇到紧急事件时决策反应能力较差.
3) 移动自组织网络: 在一些经辐射污染的建筑物[39]、倒塌的隧道[9]等环境中, 一方面由于缺乏网络基础设施, 依靠基站或无线接入点(Wireless access points)通信的方式并不可行; 另一方面, 电磁波传输的多径效应、隧道的曲折蜿蜒等因素也会对信号传输质量造成挑战. 此外, 由于空中主体与地面主体的速度往往不同步, 很容易造成空地主体空间分布不均、相距较远, 而集中式通信和分布式通信的信息由于传输范围有限, 均不能满足在此种条件下的通信要求. 因此, 一些研究者使用若干个通信范围有限的无线设备形成高鲁棒性、动态自治的移动自组织网络[9, 30, 42, 54], 用以提高信息传输范围. 在此类网络中, 空地主体将信息传输到临近的无线节点, 之后信息会通过自组织网络传输到接收方. 一些研究[9, 30, 42]为地面移动机器人携带若干个无线通信节点, 移动机器人在执行任务的过程中会逐渐将无线节点放置于路侧边缘, 若干个无线节点形成移动自组织网络, 为机器人之间的通信提供保障. 实际上, 在没有部署节点的情况下, 空地主体本身也可以充当移动自组织网络的节点.
尽管相较于前两种通信方式, 移动自组织网络有其特定的优势, 但同样面临着额外的挑战. 当无线节点数量随着空地主体所处环境的扩大而增加时, 网络带宽也会随着网络中新节点的增加而减少, 因此, 需要设计高效鲁棒的通信协议以限制特定类型的数据, 优先保证重要信息的发送. 在移动自组织通信过程中, 空地机器人除对空地任务进行规划决策外, 也需要考虑移动自组织网络节点的放置方式, 将无线节点放置太近会限制有效通信的范围, 放置太远又会使节点之间的信号大幅度衰减[9, 30, 42, 54], 因此, 无线节点的最佳放置位置、放置机制以及如何避免其损坏等问题都值得探究, 但这无疑加重了空地机器人的决策负担, 影响空地机器人执行主要任务. 一些研究者使用空中机器人为执行任务的地面或其他空中机器人提供网络基础设施[56−58], 特别强调确定空中中继站的最佳位置. 然而, 如何放置无线节点形成无线网络需要空地机器人进行决策, 这会加重空地机器人的决策负担, 影响空地机器人执行主要任务. 此外, 在地下隧道等信号传输极具挑战的环境中, 对信号接收强度(Received signal strength, RSS)建模能帮助空地团队更好地探索环境[58]. Otsu等[59]通过了解可用的连接位置进行团队机器人的集中规划与任务分配, 以便更好地选择何时以及何处放置无线节点, 最大程度地提高通信范围.
2.2 感知
空地机器人感知是指将抽象的本体信息或环境信息转化为机器人能够理解和应用的数据、信息甚至知识, 为下游任务决策提供依据. 空地机器人可以通过搭载激光雷达、深度相机、惯性测量单元等传感器实现对本体与环境的感知, 本文主要关注环境感知. 空地异构机器人所处高度不同, 空中机器人往往飞行于地面机器人上方, 这就造成了空地机器人视角的差异. 尤其是当空地机器人的视角正交或平行时, 二者观测视野差异较大, 重叠区域较少, 给感知数据的关联与融合带来不小挑战. 这时空地机器人需要通过增加传感器的采样频率来获取更多的感知数据, 但过多的数据又会造成资源受限的空地机器人处理延迟, 影响下游决策等任务. 因此, 在空地异构视角的限制下, 如何在追求感知精度的同时满足实时性需求是一个关键问题. 由于深度学习在数据处理方面的优势, 近年来基于深度学习的智能感知算法(如语义分割、目标检测、地图构建)被广泛应用到空地机器人理解环境当中, 这些算法往往注重于通过增加网络的深度来提高感知精度. 但过分地追求感知精度往往需要消耗较多的计算资源, 而空地机器人的计算资源有限, 难以运行占用较多计算资源的深度模型, 实时性无法得到保证, 故而应当权衡感知精度与实时性的关系. 此外, 真实世界复杂多样, 依赖于某个数据集训练的模型在另一个数据集下未必有效, 设计一个能够适应不同环境的鲁棒感知模型也至关重要.
2.2.1 语义分割
图像语义分割是经典的计算机视觉任务, 它是指对图像进行像素级的语义标签确定. 由于2D图像缺乏物体的空间几何表示, 近些年来也有不少研究基于拥有丰富3D信息的点云进行语义分割[60]. 聚焦于空地协同感知场景, 空地主体携带传感器设备(相机、激光雷达)进行数据采集, 并对采集的图像或点云进行特征划分和语义信息添加, 例如障碍物检测[61]、地图划分[15, 39]等, 为下游任务(例如避障、自主导航等)决策提供依据. 由于图像的计算成本较点云小, 目前大多数空地主体采用基于视觉传感器实时执行语义分割任务.
表2比较了传统的语义分割算法与基于学习的语义分割算法之间的区别. 传统的图像语义分割算法直接对图像进行像素级划分, 准确度较高[39, 61−62], 但其以消耗时间和计算资源为代价, 不适合实际部署. 与此同时, 随着卷积神经网络(Convolutional neural networks, CNN)成为处理图像分割任务的主流, 空地系统可借助其强大的分类功能使语义分割算法能够对地形准确分类[63]. 实际上, 在空地系统执行任务时, 空地主体需要实时理解场景, 因此, 能够在资源受限的空地终端高效运行的轻量级网络就成为语义感知的首要研究重点.
表 2 空地协同中的语义分割算法应用总结
方法分类 |
文献 |
方法 |
分割对象 |
分割结果 |
实时性(ms) |
任务 |
传统算法 |
[61] |
HSV分类器 |
RGB图像 |
沥青、草地、障碍物与未知区域 |
730 |
地形分类 |
[62] |
Chow-Liu树点云聚类 |
RGB图像、点云 |
马路、墙壁、楼梯等 |
1770 |
确定可通行区域导航 |
|
深度学习类算法 |
[15] |
ErfNet |
RGB图像 |
马路、建筑、车辆、草地等 |
12 |
地形分类 |
[13] |
FCN |
RGB全景图 |
全景图背景 |
330 |
相对定位 |
|
[51] |
LNSNet |
RGB图像 |
可通行区域 |
55 |
确定可通行区域导航 |
|
[53] |
Deeplab |
RGB图像、点云 |
道路、行人、树木、建筑物 |
46 |
理解环境 |
在轻量级网络中, LNSNet模型具有尺寸小、占用内存少、推理速度快等优势, 能够与导航模块一起运行在同一处理器单元, Asadi等[51]将LNSNet分割网络部署于飞艇以实时确定建筑工地UGV的通行空间. Chen等[50]提出一种基于生成对抗网络(Generative adversarial network, GAN)的主动地形映射算法, 使用卷积神经网络模型将航空图像划分为可通行区域和不可通行区域, 并在注释数据不足的情况下, 利用GAN框架生成用于训练地形图模型的样本.
此外, 将深度学习融入到SLAM (Simultaneous localization and mapping)框架以构建语义地图也是目前研究的热点, 其可用于解决传统SLAM难以提取路标的困难, 帮助空地主体理解周围环境的语义信息, 完成更复杂任务. 例如, Yue等[53]利用Deeplab模型[64]将原始图像实时生成语义图像并进行分割, 分割结果包括道路、树木、建筑物、行人等, 然后利用标定参数和投影方程将语义图像中的语义类别分配给点云信息. 本节只关注深度学习如何提供语义信息, 关于建图部分详见第2.2.3节.
2.2.2 目标检测
目标检测是指对目标对象进行分类并确定其位置, 其能够帮助空地机器人发现并定位感兴趣的目标, 从而实现实时的态势感知. 根据检测手段的不同, 可以将其分为基于相机、基于激光雷达以及多模态的检测方法. 由于相机成本低廉、检测方法成熟且种类多样, 而基于激光点云的目标检测需消耗较大的计算资源, 因此, 相机目前已成为空地任务中用于目标检测的最常用传感器[65]. 实时性和准确性是目标检测最应该关注的两点, 在搜索救援场景下, 检测算法推理速度越快, 空地机器人搜索目标的速度就越快, 更有可能及时地拯救遇险人员. 此外, 高准确率保证了不会遗漏任何重要信息.
对于空地任务中的目标检测问题, 传统方法通常在待检测物体上提前贴好特定的标记(如AprilTag标记), 通过检测标记实现定位、路径规划等下游任务[16, 49, 66−67]. 虽然基于特定标记的检测算法精度足够高, 但在图像有模糊或阴影变化、目标较小的情况下, 检测任务往往会失败. 目前最先进的目标检测算法采用基于深度学习的方法, 在检测精度和鲁棒性等方面的指标均达到人类水平[68]. 但是这些算法过分追求检测准确性, 需要消耗巨大的计算资源, 也不曾考虑实时性, 无法在资源受限的空地机器人上运行. 因此聚焦于空地协同场景, 更轻、更快的检测模型成为了首选.
表3总结了基于深度学习的目标检测算法. 其中, mAP是指在所有类别的平均精度, 其数值越高说明目标检测算法精度越高; FPS是指每秒检测的数据帧数, 其数值越大代表实时性越强. 基于深度学习的目标检测算法通常可以分为两类: 两阶段(Two-stage)检测和单阶段(One-stage)检测. 两阶段检测也称基于候选区域(Region proposal)的检测, 其首先提取候选对象的边界框, 然后从每个候选框中提取特征, 用于接下来的分类和边界框回归任务. 单阶段检测直接从输入图像中提出预测框, 不需要提取待选区域, 相较于两阶段检测, 其具有较高的推理速度, 但检测精度却有所下降. 目前在空地任务中大多选用实时性较高的单阶段目标检测算法[69−71].
YOLO (You only look once)系列算法是实时单阶段目标检测的代表性工作, 与R-CNN[72]和Fast R-CNN[73]等两阶段检测算法相比, YOLO系列算法在达到高准确率的同时也实现了实时检测. 文献[9, 48, 74−75]利用YOLOv3[71]对地下工件(通常是遇害者及其物品)进行搜索检测, 它们在不同光照、不同颜色背景中收集来自空中机器人和地面机器人的图像用于训练, 在地下隧道中进行实验测试, 达到了良好的效果. 同样在地下隧道搜索救援中, 文献[54]利用MobileNet-SSD[69]检测模型搜索幸存者、背包和手机等工件, 算法运行在仅有4G内存的Nvidia Jetson Nano计算平台, 不仅实现了在低照度情况下对远距离小目标物体的检测, 还达到了消耗较少能量(10 W)的效果; 文献[76]将DeNet[77]模型用于UGV工件检测, 使用NVIDIA Jetson Xavier GPU进行实时图像处理, UAV则利用消耗计算资源更小的MobileNetV2 SSD[70]模型进行工件检测, 其能够在Intel CPU上以3 FPS的速率运行.
表 3 基于深度学习的目标检测算法总结
方法 |
按阶段划分 |
准确性(mAP) |
推理速度(FPS) |
空地协同 |
YOLOv3 |
单阶段 |
63.4 |
45.0 |
|
MobileNet-SSD |
单阶段 |
77.2 |
46.0 |
|
DeNet |
单阶段 |
77.0 |
34.0 |
[76] |
R-CNN |
两阶段 |
58.5 |
0.03 |
— |
Fast R-CNN |
两阶段 |
70.0 |
0.50 |
— |
虽然现有单阶段目标检测算法达到了良好的实时效果, 但在准确性方面却有所欠缺. 如文献[54]发现Tiny-YOLO算法[78]对远距离的小目标检测会出现漏检和误检现象, 因此, 目前研究者正在积极开展更轻量、更高预测能力模型的研究[79].
2.2.3 地图构建
地图构建是指空地主体对环境进行建模并形成地图的过程, 最终构建的地图按照空间维度可分为2D、2.5D和3D地图. 2D地图适合结构化的空间; 3D地图更适合非结构化的环境; 2.5D地图介于2D地图与3D地图之间, 对环境进行抽象还原, 但并不能描述真实的环境信息. 各种地图进一步的比较见表4. 构建地图是下游任务成功执行的先决条件, 构建的地图精度会直接影响后续任务的决策, 高精度意味着机器人可执行更细粒度的路径规划, 对细小障碍物的躲避更加敏捷. 然而高精度的地图需要消耗更多的计算资源, 实际应用中需要在地图精度与计算资源之间权衡.
表 4 空地任务中常见地图总结
地图类型 |
表示空间 |
定义 |
特点 |
代表工作 |
拓扑地图 |
2D |
节点表示位置, 边表示边界或可通过性 |
简单有效, 无法反映地图细节 |
[62] |
2D栅格地图 |
2D |
离散的网格单元中包含其覆盖信息 |
简洁、易于存储, 无法反映地图细节 |
[66] |
高程图 |
2.5D |
基于离散位置保存高度值 |
可表示地形起伏, 忽略细节 |
|
3D点云地图 |
3D |
点云表示的空间 |
点云信息无序, 占用资源较大 |
|
体素地图 |
3D |
将空间体积划分为体素单元 |
快速读取信息, 消耗内存资源大 |
|
八叉树地图 |
3D |
基于八叉树存储体素空间 |
内存占用小, 可实时更新 |
[81] |
在空地协同系统中, 许多工作利用空中主体绘制感兴趣区域的地图, 然后将地图传输给地面主体执行任务[15, 62]. 部分工作致力于空地主体共同建图, 通过地图融合算法拼接不同主体构建的地图[9]. SLAM是目前空地主体进行同步定位与地图构建最流行的方法, 然而由于空地主体作业环境复杂多变, 室内室外存在不同的建图挑战. 在室内存在许多复杂障碍物的环境下, 空地主体的传感器(如激光雷达、相机等)容易受到噪声、遮挡等因素的干扰, 导致数据质量下降. 为确保SLAM建图任务的准确性和稳定性, 对传感器数据进行预处理并从中提取有用信息是必要的. 然而, 这些额外的处理步骤会消耗空地机器人的计算资源, 影响空地机器人执行核心任务. 此外, 复杂障碍物也可能导致SLAM地图构建过程中出现特征点缺失、误匹配等问题, 在狭长的走廊也容易发生传感器漂移现象[82], 进而影响建图精度和稳定性. 因此, 需要采用鲁棒的特征提取与匹配算法来解决信号遮挡和传播损耗的问题.
相较于室内环境的静态障碍物, 在室外环境中, 障碍物多处于移动或动态变化状态, 如行人、车辆等, 这些障碍物会严重影响SLAM位姿解算, 产生较大误差[83], 特别是当其占据机器人视野比例较大时, 机器人系统可能崩溃. 因此, 为适应室外动态障碍物环境, 空地机器人需要结合实时感知与预测算法, 如目标检测算法, 通过舍弃动态障碍物的特征点以减少位姿解算误差的影响. 与此同时, 在室外空中机器人飞行限制较少, 可任意高度飞行, 但这样造成了空地机器人较大的视角差异, 尤其是当空地机器人的视角平行或者正交时, 空地机器人观测视野的重叠区域较少, 难以进行有效的地图融合. 此外, 在低照明或灰尘、水坑等室外环境中, 由于相机固定朝向且对照明变化和环境条件非常敏感, 湿滑起伏的地形也会导致空地机器人里程测量不准确, 仅依靠相机的视觉SLAM技术通常在此环境下表现不佳. 相反, 激光雷达可提供360° 水平视野和高频率采样, 建图精度更高, 并且不依赖外部光源, 因此, 激光SLAM已成为一种构建非结构化地图的常用解决方案.
此外, 部分工作关注融合UAV拍摄航空图像以生成区域地图. 最简单的方法是直接使用特征匹配来拼接不同场景的2D图像, 此方法虽然较为成熟, 但不提供3D信息[39]. 立体视觉使用双目摄像头成像系统来计算左右图像之间匹配像素的3D位置, 能够快速创建完整的3D地图. 运动恢复结构(Structure-from-motion, SFM)通过推理两个或多个图像之间匹配像素重建3D环境, 相较于立体视觉更准确, 但运行速率却较慢. 文献[39]结合VisualSFM[84]与多视角立体重建PMVS[85]算法, 在使用VisualSFM的稀疏重建输出初始化自身后, 生成密集的3D重建. 但其需要Agisoft MetaShape软件数天时间的计算才可重建出一个农场大小的区域.
2.3 定位
定位是指空地主体确定自身在环境中的所处位置, 高精度定位可以增强空地主体自主能力[13]. 根据是否采用卫星导航系统(Global navigation satellite system, GNSS)可以将定位方式分为基于GNSS的全局定位和GNSS拒止条件下的相对定位.
2.3.1 基于GNSS的全局定位
常用的GNSS包括美国的GPS (Global positioning system)、俄罗斯的GLONASS (Global navigation satellite system)和中国的北斗定位系统. GNSS定位通过电子接收器确定目标经纬度, 并且经由卫星广播沿着视线方向传送的时间信号精确到10 m的范围内. 基于GNSS定位适合在室外大尺度场景中应用, 许多工作利用其进行室外定位.
为进一步提高精度, 文献[61]为各个空地机器人配备了实时运动学全球定位系统(Real-time kinematic GPS, RTK GPS), RTK GPS定位依赖于固定基站, 通过测量其相对于固定基站的位置进行定位, 定位精度较GPS更高, 但它需要从基站到每个主体单元的实时连接来校正信号.
2.3.2 GNSS拒止条件下的相对定位
虽然卫星导航系统具有操作简单、覆盖范围广的优势, 但其极容易受到空地主体所处环境的影响. 例如, 电磁环境或遮挡等干扰导致卫星信号质量下降, 因此, 在GNSS拒止条件下的空地机器人自主相对定位极为重要. 室内与室外是空地协同的主要作业环境, 室外环境下定位常用的方法包括:
1) 多传感器融合方法旨在融合空地机器人传感器(如单目相机、惯性传感器等)的信息来估计机器人的全局位置或局部位置, 这涉及多频异步信号的处理. 然而, 在约束较少的室外, 空中机器人移动速度较快, 传感器测量的不确定性大, 并且其与地面机器人的速度相差较大, 直接进行传感器数据融合会增加定位误差. Zhang等[86]考虑空地机器人相机视角之间的差异, 通过引入不平衡的分布式估计算法融合同一状态下的多个同步估计.
2) 空地机器人特征匹配方法通过匹配空中机器人与地面机器人的图像或点云信息来实现定位. 在这种方法中, 首先需要构建地图, 之后通过匹配图像(或点云信息)与地图之间对应的几何信息来获得定位信息[87]. 文献[13]实现了室外工业场景下空地机器人的相对定位, UAV通过激光SLAM构建地图并实现自定位, 随后将经过简化处理的2.5D地图传输给UGV, UGV通过瞬时匹配单个全景图相对于2.5D地图来实现UAV位姿估计. Wu等[88]针对UAV和UGV的视角差异提出一种基于分段的跨域定位解决方案, 该方案利用大型建筑物在空中和地面视点上的共同信息进行匹配, 获得了高精度的定位. 此外, 在有先验知识的环境中还可以考虑利用预先获取的先验知识(地图图像、街景)与空地机器人的实时位置进行匹配, 通过对比特征点、道路网络等信息, 估算空地机器人的位置. Majdik等[89]在图像数据库的帮助下, 从先验数据库中检索与空地机器人观测相似的图像, 进而通过空地图像匹配确定无人机相对于地面环境的位置. 然而, 当环境变化时, 重建图像数据库的过程是离线的, 较大规模的数据库重建需要耗费大量时间.
目前空地机器人室内定位方法主要包括:
1) SLAM方法: 相较于地下隧道和行星表面等室外环境, 室内环境相对固定, 如长廊环境, 但这也造成了SLAM特征提取困难的问题, 同时面临传感器数据漂移的挑战. Petris等[90]基于多模态定位和建图框架CompSLAM, 利用UGV与UAV组成的协作系统探索室内地下室, UAV可以随时起落或停靠于四足机器人上, 二者共享地图与姿态, 并利用它们的互补能力协同开展探索. Qin等[91]首先利用UGV进行快速自主探索和主动2.5D SLAM生成粗环境模型, 然后UAV进行后续互补3D精细建图, 能够实现探索小型办公室式环境.
2) UWB辅助定位: GNSS拒止的室内环境往往为立体复杂空间, 楼层之间需要建立统一的空间坐标, 并且各种墙体会干扰信号传播, 导致多径效应, 而空地机器人之间速度不一致很容易导致它们处于不同的区域空间, 这就造成了协作定位的困难. 超宽带(Ultra wide-band, UWB)定位技术具有穿透力强、定位精度高等优势, 将其与其他传感器结合能够校正机器人的位姿和环境观测信息出现的误差, 减少单一传感器漂移造成的定位精度下降的问题. Queralta等[92]通过融合UWB和基于视觉惯性测量实现完整的姿态估计, 利用UGV上的传感器检测UAVs的位置, 以实现定位. Asadi等[51]在室内大型仓库为飞艇安装了UWB系统, 以便实现厘米级定位.
2.4 决策
决策是指空地主体在一定的信息或者经验基础之上选择某种策略以完成任务, 决策应该在满足约束的情况下追求效率最大化. 现有的空地协同工作主要集中于空地主体的路径规划决策, 旨在研究如何在空地速度、能量异构的挑战下以最短距离或最短时间前往目标点. 空地机器人路径规划主要面临安全性挑战, 需要在避免碰撞的前提下到达目的地. 相较于具有较多开放空间的室外环境, 室内环境的障碍物通常更加杂乱, 存在不同类型的建筑组件和家具等遮蔽物, 这些障碍物会对空地机器人的移动和执行覆盖任务造成阻碍. 此外, 室内环境约束更多, 例如空间大小、布局和高度等, 这些因素限制了空地机器人在室内的覆盖应用. 在室外, 地面机器人通常行走在不规则的道路, 其宽度不固定(1.5 ~ 5 m), 甚至包含斜坡. 道路之间主要由路缘分隔, 但某些道路没有明确的界限, 与草坪直接接触. 不同类型的路面、不规则的道路边缘、斜坡、楼梯等静态地形, 以及行人、移动车辆、雨水、雾气等动态干扰的存在都显著增加了各种约束, 限制了地面机器人的移动能力. 为应对这些挑战, 空地机器人必须具备实时感知的能力, 同时需要设计有效的避障策略, 以避免与障碍物的碰撞或冲突.
传统的路径规划模块由基于先验信息的全局路径规划器和基于传感器实时信息的局部路径规划器组成[93]. 许多工作[16, 39, 94]利用UAV创建全局地图, 从而指导UGV执行A* 算法[95]进行全局规划前往目的地. 文献[61]在UAV成功对地形划分之后, UAV上的D*[96]规划器会检索当前地形成本图, 并指导UGV从当前位置移动到目标位置, 然而该方法在动态环境中却表现不佳. 文献[97]将大面积的农场区域划分为独立的子区域, 每个子区域分配给固定的UAV去执行覆盖任务, 并利用UGV为UAV供能, 这样大幅提高了空地覆盖效率, 但却只能作用于静态环境.
在面对动态环境时, 由于基于传统规划算法的全局规划与局部规划模块相互独立, 并且需要针对不同的场景设计相应的规划算法, 同时考虑多种约束条件下的轨迹优化[98], 研究人员需要单独开发并进行繁琐的调参过程, 增加了过程的复杂性. 与此同时, 基于深度强化学习(Deep reinforcement learning, DRL)的路径规划摆脱繁琐的分层多级耦合规划框架, 统一全局运动规划器和局部运动规划器[98], 实现了从感知端到动作端的规划, 显著减少了系统决策时间. 因此, 将DRL的决策机制引入机器人路径规划中已成为当前研究的热点[99]. 此外, 基于模仿学习[100] (Imitation learning, IL)的路径规划方法旨在从人类提供的有效导航行为演示中学习产生类似的策略, 其可帮助空地机器人适应动态场景.
然而, 基于深度强化学习和基于模仿学习的路径规划方法均需要大量的训练数据才能推广到未知环境, 也无法保证空地主体的安全性. 为此, 从幻觉中学习[101] (Learning from learned hallucination, LfLH)方法最近被提出, 并被用来解决高质量数据获取时的困难. 该方法通过引入一种监督神经网络控制器在无障碍环境中随机收集训练数据, 在训练过程中, 约束机器人导航的障碍物会被投影到机器人的感知当中, 这使得机器人在障碍物环境下所采取的行动始终是最优的. 由于在受限环境中导航的固有安全性, 机器人可以自主生成大量的训练数据, 无需人工监督, 也无需在试错学习过程中承受高昂的失败代价. 例如, 文献[102]将LfLH规划器用于UAV和UGV在高度受限空间中的导航, 并帮助机器人实现了安全、快速、顺畅地到达目的地.
2.5 控制
控制是指空地系统根据上层决策的输入信号、结合反馈信息执行更细粒度的操作, 使之按照专家建立的模型运作. 在空地协同过程中, 由于空中主体与地面主体的速度往往不同步, 容易造成空地主体空间分布不均、相距较远, 而空地机器人之间又存在通信范围、观测范围的限制, 这就要求空地机器人自适应调节自身速度, 避免空地机器人相距较远. 在空地机器人协作范围的限制下, 如何实现精确、稳定、快速的控制是空地协同过程所面临的基本问题. 同时, 为保证空地协同过程运行的稳定性和鲁棒性, 需要研究如何提高系统的容错能力和适应性, 这包括如何处理异常情况、如何应对动态环境等问题. 事实上, 空地机器人的控制依赖于机器人感知、通信、决策等上游任务的结果, 它们之间相互关联, 因此, 在设计算法过程中需要同时考虑控制算法与上游方法, 而这无疑又增加了计算复杂度. 从控制论角度出发的空地协同综述可参考文献[23−27], 尽管该领域研究往往依赖于精确的物理动力学建模, 但大多数建模过程却过于简化[103], 甚至不能正确反映动力系统的底层结构, 导致最终产生较大偏差. 与此同时, 近年来数据驱动类方法在解决机器人控制的问题上取得了巨大进步[19], 其主要分为两类: 一种是以神经网络为代表的算法[103], 在被控对象状态和轨迹的数据集上使用参数化的训练模型来近似描述系统动力学方程; 另一种是以强化学习为代表的算法[19, 104], 其通过不断试错寻找最优控制策略.
具体来看, 文献[103]综合考虑SE(3)运动学和能量守恒约束, 并将其结合到神经常微分网络来拟合UAV动力学模型, 其结果的可解释性更强, 最终实验也表明UAV能够稳定地跟踪地面移动目标. 文献[104]提出利用DDPG (Deep deterministic policy gradients)算法解决UAV降落到地面移动平台的问题, 其通过连续控制UAV相对地面移动平台的速度来实现自主降落, 并通过奖励函数约束其与地面移动平台的距离使之精准着陆. 文献[19]结合了四足机器人的本体感知和外部感知, 在可获取环境完整信息的情况下基于强化学习训练教师策略, 利用模仿学习训练学生策略, 得到的学生模型可直接部署于机器人, 而无需任何微调. 总之, 控制策略作为空地协同的重要组成部分, 其研究也在不断通过人工智能赋能. 然而, 目前基于数据驱动的控制方法大都仅存在于模拟环境之中, 在真实环境下的部署较为少见, 未来对于如何将模拟环境下的训练模型部署于现实世界仍需要深入研究.
3. 规则驱动的空地协同
本节将在第2节空地个体能力的基础上, 从群体层面出发介绍规则驱动下的空地协同. 根据第1.2.4节对空地协同环节的设定, 本文按照自主化程度将空地协同划分为四个等级(从低到高): 非自主等级、弱自主等级、强自主等级、完全自主等级. 其中, 非自主等级是指所有协同步骤均遵循人类专家的预定设计, 自主化程度最低, 目前大部分工作都发展到了这一等级; 弱自主等级是指空地系统能够自主分配与执行任务, 但其仍需人类指定并分解任务; 强自主等级能够在弱自主等级的基础上自主分解任务, 依赖预定规则的程度进一步下降; 完全自主等级是指整个协同过程的自主化, 能够主动挖掘任务并分解执行, 脱离人类而独立运行, 目前还未发现相关工作能够实现真实环境下的完全自主化. 表5对现有相关工作的空地协同等级划分进行总结.
表 5 空地协同等级分类方法总结
等级分类 |
代表研究 |
任务 |
方法 |
决策拓扑 |
实验环境 |
非自主等级协同 |
[9] |
探索地下隧道 |
基于图的路径规划器, 地图融合算法 |
分布式 |
Sim2Real |
[80] |
协作攀爬 |
未知环境可穿越性地形判断 |
集中式 |
Real |
|
弱自主等级协同 |
[59] |
探索地下隧道 |
BPMN表示法, 有限状态机 |
集中式 |
Real |
[112] |
区域搜索 |
神经进化算法 |
分布式 |
Sim |
|
[108] |
海上平台作业 |
多角色目标分配 |
集中式 |
Sim |
|
[110] |
野外建图 |
规约语言, 确定性有限状态机 |
集中式 |
Sim |
|
[111] |
目标跟踪 |
多智能体强化学习 |
分布式 |
Sim |
|
强自主等级协同 |
[113] |
提供通信计算服务 |
目标层次分解 |
分布式 |
Sim |
[114] |
协同作战 |
PDDL模型, 基于图的任务分解 |
集中式 |
Sim |
|
[115] |
提供通信计算服务 |
Lyapunov优化法 |
集中式 |
Sim |
3.1 非自主等级协同
非自主等级将各空地主体能力简单叠加, 只具备任务执行自动化, 无法自主挖掘任务并进行分解与分配, 其任务完成率取决于空地主体感知、决策算法的准确性与鲁棒性. 如第2节所述, 以深度学习、强化学习、SALM等方法为代表, 它们能够显著提高空地主体的感知能力和决策水平, 从而增加空地团队的非自主化协同能力. 尽管目前大部分空地系统达到了非自主水平, 但此类非自主等级的空地协同系统在部署前需要人类专家花费大量的时间进行物理建模和联合调参, 遇到突发情况也无法自主应对.
非自主等级下最成功的应用案例是空地团队在地下隧道的探索活动[9, 30, 42, 48, 76]. 例如, 在充满迷雾灰尘、光线昏暗的地下环境中, 空地主体能够依赖预设策略, 利用通信、感知、定位、决策以及控制能力充分发挥各自优势, 从而协调整个团队, 最终开展地下环境探索任务. 此外, 文献[80]利用UAV将系绳置于陡峭地形的顶部, UGV通过缠绕的系绳爬上陡峭的地形, 二者紧密协作, 有力验证了其感知、决策与控制能力.
3.2 弱自主等级协同
如图6所示, 弱自主等级在非自主等级的基础上, 能够实现任务自主分配. 此类型协同需要人类专家预先将群智任务分解为若干个子任务, 空地系统根据各主体特性和子任务特点, 为每个任务寻找最佳的主体去执行, 实现自主任务分配. 群智任务分配包括集中式和分布式两种方式, 前者依赖于强有力的中心节点(计算资源丰富、通信能力强)统一管理整个空地团队, 每个子节点只负责中心节点下发的子任务, 通常难以扩展到包含大量成员的空地系统, 也无法自适应未知环境[105]. 此外, 在实际应用中, 集中式任务分配严重依赖于可靠的通信网络, 一旦中心节点或通信网络出现故障, 则会导致任务失败. 分布式任务分配能够克服集中式任务分配的缺点, 仅通过局部协调即可实现任务分配[106], 具备更强的鲁棒性和容错性, 在大型空地团队中较为常见.
图 6 空地协同群智系统自主化等级[80, 110, 113, 116]
设计自主分配方法以促进空地主体协作是任务成功执行的关键. 目前, 研究空中或地面群体内部之间的任务分配问题较为常见[107], 这些方法主要致力于最小化群体成员完成任务所需的距离, 同时确保被分配到任务的成员拥有成功完成任务所需的能力. 解决异构群体之间任务分配问题的方法主要包括基于拍卖的方法[108]、基于优化的方法[109]、基于任务规划语言的方法[40, 59, 110]和基于多智能体强化学习的方法[111]. 这些方法考虑空地主体自身能力、任务次序、任务耦合度等约束, 以优化任务执行效率、预期成本为目标统一分配任务.
基于拍卖的分配方法是目前解决空地异构主体之间任务分配问题的常用方法, 其以经济学原理为基础, 利用设定的竞标机制选择任务. 文献[108]提出一种多角色目标分配算法, 根据空地机器人的能力、传感器系统的冗余度、目标的空间分布和任务执行时间来分配任务目标, 避免了大量计算资源的消耗, 使得空地机器人在海上石油模拟平台中执行任务的效率更高.
基于优化的方法根据最小化成本或最大化利益, 其通常将任务分配问题建模为一个目标函数. 文献[109]研究了空地协同系统在灭火任务中的任务分配问题, 将任务分配问题描述为一个纯整数线性规划, 利用Matlab工具箱进行求解. 文献[117]以最小化空地机器人与WiFi源之间的距离为目标, 通过汇聚所有机器人的WiFi信号进行集中式目标分配, 以高效采集未知环境的WiFi信号.
基于任务规划语言的方法旨在利用逻辑语言来描述任务、物体与环境的关系, 从而进行分配. 文献[59]利用BPMN (Business process modeling notation)表示法定义空地主体任务, 并设计一个类似有限状态机的任务执行器控制任务进程. BPMN表示法允许空地主体同时执行多个任务, 高效地完成了地下探索任务. 文献[110]采用确定有限状态自动机(Deterministic finite automaton, DFA)构造空地协同控制系统, 设计规约语言(Specification language)表示基于离散系统的目标、行为策略和控制器, 从而为UAV和UGV分配建图任务. 文献[40]提出一种分布式的动态高层次任务规划协同算法, 将自动化施工任务用TAEMS[118] (Task analysis, environment modeling, and simulation)语言表示, 空地机器人团队基于GPGP (Generalized partial global planning)算法[119]分布式执行任务, 以最大限度地缩短任务完成时间.
近年来, 多智能体强化学习(Multi agent reinforcement learning, MARL)成为了一种解决分布式任务分配的流行方法. 文献[111]提出一种基于能力感知的多智能体深度强化学习方法(Mix-RL)来制定机器人的能力, 空地团队可以结合对队友成员能力的认知与任务要求、动态环境等因素, 灵活部署策略, 并在动态环境中完成目标跟踪任务, 提高任务整体执行效率.
综上, 弱自主等级的空地系统自主化水平得到进一步提高, 但其仍无法自主确定任务和分解任务, 并且基于规则的任务分配无法适应复杂动态的环境.
3.3 强自主等级协同
强自主等级协同能够在弱自主等级协同的基础上进行自主任务分解, 其自主化程度高于弱自主等级协同, 但其任务仍需要人类主管指定. 任务分解实际上是将一个不可执行的群智任务划分为若干个可执行的子任务, 这些子任务或相互独立或按时间相关. 现有工作很少关注空地任务的分解, 往往是人类主管在部署算法之前预设任务并确定主体的角色, 然而任务分解对于自主化的空地协同群智系统至关重要, 它直接决定空地协同群智系统的能力强弱.
尽管基于契约网络的分解方法常被用于分解大样本空间的复杂任务, 但该类方法不适用于实时性要求高的任务. 因此, 文献[114]在研究UAV与UGV协同作战的任务分解和生成时, 主要根据任务目标确定空地无人系统的任务和动作序列. 在此基础上, 考虑到空地协同任务多样化的特点和任务规划的通用要求, 其采用一种符号规划语言——规划域定义语言[120] (Planning domain definition language, PDDL)对空地无人系统协同作战任务进行建模和求解. 该方法有助于将逻辑信息上的显式推理集成到任务规划中并增加人类可读性.
在智能物联网领域, 当空中机器人在偏远地区为PIOT (Power Internet of Things)设备提供无处不在的通信和计算服务时, 就需要对设备端任务进行分解. 文献[115]利用Lyapunov优化方法将长期随机优化复杂问题解耦为一系列短期确定性优化子问题, 以分布式的方式顺序求解. 此外, 空中机器人也常与地面基站配合用于对地资源观测. 文献[113]提出区域目标层次分解方法, 该方法根据不同类型资源的特点将区域目标分解为子任务, 实验表明该分解方法能显著提高后续协同规划过程的效率.
总之, 从上述文献可以看出, 强自主等级协同任务仍依赖于人类指定, 不具备全过程自主运行的能力. 此外, 强自主等级空地协同目前大都存在于模拟环境, 还未发现能够在真实世界运行的强自主等级空地协同系统. 实际上, 将空地系统从模拟环境迁移到真实环境还存在许多问题尚未解决, 需要研究者不断深入探索.
3.4 完全自主等级协同
完全自主等级的空地协同在强自主等级协同的基础上, 能够执行包括任务挖掘在内的所有协同环节. 相较于强自主等级协同, 其完全脱离人类主管运行, 具有高度的自主性, 能够主动挖掘任务并形成一定的认知, 以便对其进行分解与分配.
空地主体主动感知与认知推理是实现完全自主协同的关键. 空地主体的主动感知将其感知与行为决策相结合, 其基于感知对象并不断地调整自身行为使其更好地理解环境[121]. 近年来, 许多工作已将主动感知应用于机器人的目标检测[116]、导航规划[122]等领域, 极大地促进了机器人与环境的交互能力. 认知推理是指应用感知得到的抽象知识进行建模, 其中知识表示、推理和决策是认知推理的重点[123]. 文献[124]将因果推理和属性学习用于机器人决策, 缓解了从视觉感知到推理认知存在的语义鸿沟问题.
事实上, 完全自主等级的空地协同能够实现标准异构机器人协同过程的全流程自主化, 但依次执行这些步骤会涉及到多个模块的联级调控, 会导致空地协同决策响应时间过长, 影响任务执行效率, 并且协同过程也容易受到破坏. 此外, 在动态环境中执行复杂任务时, 完全自主等级的协同仍不能应对所有情况, 适应能力、学习能力、容错能力更强的空地协同模式需要深入挖掘.
4. 群智涌现的空地协同
不同于传统的规则驱动, 空地协同群智系统能够通过增强个体能力, 利用自然群智协作机理汇聚互补的空地个体能力, 提高协同自主性, 涌现出自组织、自适应、自学习与持续演化的群体智慧. 本节将介绍空地协同群智系统的群智涌现能力.
4.1 概述
在电影 《流浪地球2》 中, 若干个群体建筑机器人通过协作建造行星发动机的场景就体现了群智协同的概念. 而对于空地协同场景下的群体智能, 自组织、自适应、自学习地协调个体行为以达到最终的群体目标是其典型特征. 事实上, 此类群智行为研究已存在于许多现有工作中[20, 125], 其发展趋势已隐射出空地协同群智系统的未来需求和实现可能. 空地协同群智系统不仅能够实现完全自主等级的协同, 而且能够通过增强空地个体的智能性, 将自然界生物群体协同机理迁移映射到空地协同系统, 涌现出群体智慧, 实现群智任务自组织、动态环境自适应、行为决策自学习以及全生命周期持续演化的群智能力, 更加适应未来愈发复杂的动态任务与环境. 图7为生物群智迁移映射空地协同群智系统示意图. 后文将具体介绍空地协同涌现机理和空地协同群智系统的典型特征.
图 7 生物群智迁移映射空地协同群智系统
4.2 空地协同群智涌现机理
空地协同群智系统的整体能力并不是个体功能的叠加, 而是为达到“1 + 1 > 2”的群体智能效应, 涌现出自组织、自适应、自学习与持续演化的群体智慧. 目前, 尽管以蜂群算法、蚁群算法为代表的群智算法在同构多机器人协作领域获得了广泛应用[126], 但生物群智机理在异构多机器人系统中的研究应用目前仍较少. 然而事实上, 在自然界生物长期演化的过程中, 除了竞争、捕食关系之外, 不同种群生物之间的相互协作也是一种常见的生存方式. 例如, 犀鸟与猫鼬一同嬉戏和觅食, 犀鸟在天空向地面上的猫鼬预警, 当附近有危险时会迅速告知猫鼬逃避, 二者觅得的食物则会一同分享[127]; 尼罗河鳄鱼允许千鸟在其身上觅食小虫甚至啄吃其嘴中的水蛭, 而千鸟会为鳄鱼“站哨”, 当发生突发情况时会立马惊醒鳄鱼, 从而让其避免一场灾难[128]; 乌鸦在饥饿状态下会发出叫声吸引狼群注意, 并引导狼群捕食, 在狼群美餐之后, 乌鸦会将剩余残渣食尽[129]. 总结来说, 跨种群生物群智涌现行为主要包括协作避险和协作捕食, 它们通过互补合作, 在达到各自目的的同时也使得双方整体收益最大化.
自然界中不同生物种群之间的合作能够涌现全新的能力, 如何将其协作机理迁移、映射到空地协同系统, 促进空地机器人深度融合、共同演化是目前多机器人协作研究的重点. 文献[28]总结了生物群智机理迁移映射人工集群系统的七种典型模式: 群集动力学、启发式规则、自适应机制、群智优化算法、图结构映射模型、演化博弈动力学、类人学习机制, 借助这些映射机理可以将生物群智应用于空地协同群智系统. 文献[130]基于生物互利共生理论设计空地协作系统, 并将其应用于数字监控领域. 文献[131]观察蜻蜓群集现象, 提出一种空地机器人动态运动模型以实现实时路径规划. 文献[132]受自然界狼与乌鸦合作捕食的启发, 将拥有更好视角的UAV用于引导地面UGV完成追捕任务, 并考虑周围环境及被追踪对象的时速变化所引起的扰动, 设计一种分布式控制器更加鲁棒地完成追踪任务. 然而, 上述工作仍未充分挖掘跨生物种群的协作机理, 空地异构机器人之间的协作也较为简单.
此外, 将人类智慧应用于空地系统也是近年来的研究方向[133]. 为建模UAV与UGV团队协同行为, 文献[133]从一个简单、不完善的场景中收集人类演示数据, 并利用模仿学习方法学习UAV-UGV的互补特征, 同时对DRL模型的训练进行加强以及对优化策略进行指定, 最终训练的空地协同模型能够相互补充执行复杂任务. 然而模仿与学习这种策略需要大量的数据和标注, 训练成本很高. 因此, 文献[134]构建一个可以模拟蜂群行为的模拟平台用于收集目标搜索任务中的不同战术策略, 它同步记录人类玩家的脑电图、眼球追踪等生理信号, 人类玩家通过图形化界面控制UAV与UGV团队进行实时策略游戏, 执行搜索救援任务, 最终游戏结果和其对应的人类玩家策略将会用于指导空地系统任务的执行.
总之, 在空地协同群智系统中, “空”具有广视角、机动灵活、低成本等优势, “地”具有功能强大、长时续航、能源储备丰富等优势, 二者智能形态深度融合、互相补足, 在整个生命周期内不断交互合作, 通过个体智能的发散和汇聚完成群智涌现.
4.3 基本特征
空地协同群智系统的自组织、自适应、自学习与持续演化特征使得其具备更强的灵活性、容错性、鲁棒性和泛化性. 本节将详细介绍空地协同群智系统的涌现特征, 图8为空地群智涌现的基本特征.
图 8 空地协同群智涌现基本特征[112, 135−137]
4.3.1 群智任务自组织
第2.1节总结了现有空地协同工作中移动自组织网络的研究现状. 尽管通过移动自组织网络, 空地主体能够实现远距离、恶劣条件下的通信, 但其仅实现了通信方法层面的自组织, 关于如何选择通信对象、确定任务优先级、分配任务等群智任务执行层面的行为仍依赖于规则制定. 然而, 人类专家设计的规则策略难以在不确定因素干扰的复杂环境中执行集群策略, 基于强化学习的策略也面临着奖励函数设计困难、计算复杂度高的问题. 自组织地分配任务给相应的空地主体是解决上述问题的基本思路, 这其中需要考虑群智任务的表示、任务之间的耦合性、主体能力以及任务与主体之间的信任度等问题. 此外, 空地协同群智系统由大量高度异质的个体组成, 相较于控制单体或者同构群体, 控制大量异构的空地机器人难度呈指数型上升. 本节所讨论的自组织将在实现通信自组织的基础上, 能够自主地进行任务分配与执行, 当面对复杂、高度不确定性的外界环境时可以实现空地团队的自组织部署.
自然界中生物的自组织行为是空地系统自组织执行任务的主要灵感来源之一. 文献[112]借鉴蜂群协作的自然界活动, 利用进化神经网络表示群智任务, 通过兴趣点的帕累托过滤实现减小输入空间复杂度的效果, 并将控制命令进行分组以实现同时控制多个机器人, 其成功实现了在模拟环境中部署UGV与UAV集群协作系统, 并对多个城市街区的目标建筑物进行搜索.
由于实现群智任务自组织需要面临机制不明、计算复杂度高等难题, 目前只有较少的工作实现了群智任务自组织, 该领域的进展仍需要生物映射机理、群智能体协同等相关理论的突破. 此外, 在实际应用中, 还需要考虑空地主体的计算能力、通信带宽和运动性能等因素的限制, 设计能力更强的空地主体成为实现群智任务执行自组织行为的关键一环.
4.3.2 动态环境自适应
环境自适应能力是空地群智系统高效实现群智任务的重要保证. 传统的空地个体受限于自身算力或者智能化水平, 在面对复杂多变的环境时感知理解环境的效果往往较差, 严重影响下游规划等任务的执行. 空地协同群智系统实现环境自适应主要体现在三个方面: 1) 环境感知自适应, 感知模型对不同环境的变化更加鲁棒, 对光线、尘雾、雨雪等外界噪声抗干扰能力更强; 2) 资源调度自适应, 能够根据外界环境变化自适应调整内存分配以实现资源消耗最小化; 3) 形态结构自适应, 根据环境的变化调整自身形态结构以更好地适应环境.
环境感知自适应. 空地主体即使仅完成一项任务所面临的动态环境也颇具挑战. 例如, 在地下隧道执行搜救任务中, 空中主体要面临空气中的雾气、烟尘、灰暗光线等挑战, 地面主体则需要考虑泥坑、水洼、斜坡等地形变化. 为不同的环境设计不同的感知模型会消耗大量的时间与人力成本, 提高模型的鲁棒性和泛化性是环境感知自适应的关键. 最近, Dong等[138]认为正常样本和对抗样本学习冲突问题是制约目标检测模型鲁棒性的因素, 通过使用对抗样本鉴别器引导对抗感知卷积以自适应地处理不同样本十分重要. 对环境变化的快速识别能够帮助空地主体实时决策, 也是环境感知自适应的关键. Luo等[139]提出一种环境敏感的上下文策略学习, 利用方差最小化损失实时提取环境特征、截断循环神经网络模型关注近期交互数据等不同手段, 使得机器人能够快速识别并适应环境的突变.
资源调度自适应. 空地主体执行互助型任务时所发挥的功能相同, 但其设备资源(例如计算、存储、电量等)却有所不同, 空地主体使用相同的策略模型应对不同情景会造成资源过量消耗. 而资源调度的自适应可以根据环境上下文信息最小化资源消耗, 避免浪费空地主体的计算、存储等设备资源. Liu等[140]认为模型压缩是一种粗粒度的神经网络超参数选择, 利用强化学习对终端设备不同的计算任务需求和资源约束进行自动化选择, 从而可以实现自适应的轻量级模型资源调度. 文献[141]基于知识蒸馏机制提出一种基于权重共享的自演化网络模型, 根据动态需求在终端动态自适应缩放模型.
形态结构自适应. 空地主体根据情景变化调整形态结构以适应环境, 达到能量消耗、响应速度等指标的最优. 目前已有许多关于空地机器人形态自适应的研究工作[136, 142−143]. Nygaard等[142]设计一种自适应不同地形的六足机器人, 通过改变自身的机械结构适应不同的环境. Li等[143]借鉴印鱼吸附于水下生物的原理设计一种可跨越水空介质的四旋翼UAV. 在空地协同领域, Mathews等[136]借助UAV广视角的优势监督引导地面UGV上的队形形成, 使UGV根据环境变换自组织队形.
4.3.3 行为决策自学习
决策能力是体现空地协同群智系统智能化水平的主要标志. 基于规则的空地主体行为决策需要人类专家花费大量时间进行动力学建模和手动调参, 而且建模过程常常忽略外界因素的影响, 最终得到的模型不能直接应用于实际环境. 而行为决策自学习能够通过自我学习找到最优解决方案, 在协作过程中不再需要借助人类智慧, 也不再需要预定规则, 能够依靠学习得到的经验知识应对复杂情况和危险状态. 强化学习、示教学习和元学习是空地协同群智系统行为决策自学习的主要方法, 虽然目前还未发现该类方法直接应用于空地协同领域的研究工作, 但针对单主体或同构集群的决策行为已有许多应用[137, 144−145].
强化学习是一种常用的机器人自主决策方法, 通过其与环境不断的交互获得奖励, 多次尝试之后便可得到一个最优策略. 文献[18]中的AlphaGo采用离散的深度强化学习网络, 不断地与棋手对战, 最终得到一个可以匹敌世界冠军能力的对战算法. Ye等[144]设计一种基于图注意力机制的深度强化学习网络, 通过UAV之间的通信获取空间信息, 利用循环单元学习历史特征, 最终实验表明少量的UAV即可为地面用户提供最佳的通信覆盖.
由于空地机器人的联合状态空间和动作空间较单机器人显著增加, 计算复杂度呈指数型上升, 将强化学习直接应用于策略学习过程会导致模型难以收敛, 而示教学习则可有效解决此问题. 其通过示教者给出专家的示教轨迹, 使用监督学习或强化学习训练学生智能体的策略, 最终学生网络学习得到的策略与专家行为相似. 文献[137]设计一个两阶段学习框架用以训练一个可以在室外自主导航的四足机器人. 具体地, 其首先在具有特权信息的模拟世界训练教师网络, 然后利用行为克隆技术将其策略传授给学生网络, 最终训练策略可以实现零样本迁移.
总之, 强化学习、模仿学习过于依赖数据和算力, 而元学习能够利用过往经验、知识快速理解新任务并产生相应的应对策略, 是一种更高效的学习方法, 同时也更适用于空地系统的场景. 例如, 文献[145]就将耐噪声自适应算子与基于进化策略的元学习结合, 用于在仿真环境下训练四足机器人的步态策略. 当其研究迁移到真实环境时, 也能够有效适应新环境下噪声、延迟等影响.
4.3.4 群体智能持续演化
在巡逻修检、搜索救援等需要空地系统长期工作的场景[11], 空地主体应该在避免知识遗忘的同时学习增长新的任务技能, 这就需要空地主体具备不断学习的能力. 空地协同群智系统以实现类似人类所具有的全生命周期智能演化为目标, 具备不断解决开放式泛在问题的能力. 空地协同群智系统不仅具备在物理世界积累经验的能力, 如 《流浪地球2》中所述的“数字生命”能够不断学习以提高自我认知能力一样, 空地协同群智系统在虚拟世界也需要能够学习进化, 并将学习得到的知识经验迁移到真实环境. 这样的能力实际上将显著降低空地系统物理硬件成本损耗, 并提高部署成功率. 然而, 如何联接过去经验与当下学习的知识以及如何提高知识学习效率是空地系统持续演化的关键. 此外, 如同自然界生物以种群为单位进化一样, 作为一个包括空中和地面群体的系统, 空地协同群智系统以群体为单位的持续演化是发挥群智优势的关键, 这其中涉及到如何有效汇聚个体经验知识为群体智慧、如何表示经验与知识等难题. 针对此, 终身学习和群落生态演化是解决上述问题的思路.
终身学习(Lifelong learning)也称持续学习, 其旨在利用已有知识持久地进行在线学习[146]. 文献[135]依据生物神经元运行机制总结了神经形成、记忆回放、神经调制等生物学原理以启发终身学习算法的设计. 此外, 记忆更新机制, 如主动遗忘和记忆巩固, 也可成为终身学习的灵感来源. 最近, 文献[147]提出一种利用生成模型来模拟可信人类行为的“生成式智能体”, 其通过存储、合成与应用历史记忆, 使用大型语言模型来生成可信的人类行为, 最终25个生成式智能体能够在模拟游戏中持续增长自身技能, 涌现出类似人类的社会行为.
群落生态演化是指某个环境中的生物群落相互共融、相互作用、统一进化, 每个生物种群都按照自己的生态位发挥相应作用[148]. 受此启发, 空地异构群智系统中每个个体都拥有自己的角色划分, 在空间位置、计算、存储、功能等方面存在差异, 个体也受外界环境、其他个体的影响, 整个系统随时间不断演化. 理解并建模空地机器人的生态位及其与宏观群落结构变化的映射机制, 则可能为空地群机器人交互共存提供启发式方案[28].
5. 空地协同应用
单个空中或地面主体在感知范围、任务执行效率及可靠性等方面都存在限制[98], 而空地主体协同执行任务能够利用双方互补的优势, 更加高效灵活地完成任务, 因此, 其被广泛应用于如图9所示的搜索救援、自主探索、巡逻修检、军事作战等领域. 本节将在前文所介绍的空地技术基础之上, 对空地协作场景进行介绍.
图 9 空地协同应用[9, 13, 38, 51, 112, 149]
5.1 搜索救援
在震后灾区[38]、经辐射源污染的场所[39]以及阴暗的地下隧道[9, 30, 42, 48, 76]等环境中, 网络通信基础设施受损, GNSS信号不可用, 地形复杂多样, 人类难以在这样的条件下工作. 除此之外, 这些场景都存在着狭隘通道、动态障碍物、尘雾干扰等挑战[75]. 因此, 一支高度自治且鲁棒感知的机器人团队前往这些场所开展搜索救援工作成为人类的迫切需求.
由于空地协同系统高度的互补性、自治性和智能性, 将其应用于上述场景成为了可能[8, 14]. 其中, 空中机器人利用空中视角的优势快速探索未知环境, 引导UGV驶入目标区域开展精准的救援任务. 空地主体协同开展搜索救援有助于减轻救援人员的工作量, 并提高实时态势感知能力[150].
此前, Michael等[38]将UAV与UGV协同系统用于测绘地震损坏的建筑物. 与其类似, Kruijff-Korbayová 等[151]将空地协同系统用于灾后环境勘察, 遗憾的是两者都需要人类远程操纵. 在Christie等[39]的工作中, UAV通过建立语义图为UGV路径规划提供依据, UGV在行驶过程中绘制环境地图, 并使用辐射探测器从地面收集更精确的辐射测量值.
5.2 自主探索
机器人在未知环境下缺乏先验地图, 行动具有不可预见性, 面临诸多挑战, 因此, 能够在不确定环境下开展自主探索的自治系统近年来受到越来越多的关注. 机器人自主探索是指在未知环境中移动, 同时构建可用于后续导航的地图[152]. 强化学习赋能的四足机器人已成功行走于各种非结构化地形[19], 然而在面对约束更多、地势突起的地形时, 四足机器人也只能望而却步. 空中机器人却不受这种环境限制, 可到达任意位置, 但有限的续航能力使其无法执行长时间任务. 将四足机器人与空中机器人组合形成空地系统, 能够优势互补并克服各自局限性, 在自主探索地下隧道[9, 30, 42, 48, 76]、行星表面[12, 22, 153]、室内建筑[21, 90−91]等环境得到了广泛应用.
地下隧道面临着低氧低温、空间狭窄、视野灰暗、烟尘漫布等多重挑战, 对空地团队的自治、感知、通信和移动能力带来巨大挑战[9]. 美国国防部下属国防高级研究计划局(Defense Advanced Research Projects Agency, DARPA)发起地下挑战赛(SubT challenge), 鼓励机器人团队自主探索地下隧道. 在该挑战赛中, 各个团队[9, 30, 42, 76]均强调了以激光雷达为主的SLAM解决方案, 旨在实现鲁棒感知.
探索未知行星是人类一直以来的愿望, 但受限于航天器的载荷和潜在的危险, 使用重量更轻的智能机器人探测代替人类探测成为了首选. 文献[22]考虑使用由UAV和UGV组成的协作系统探索行星表面, 在追求成本最小化的同时到达目标点. 其中, UGV作为移动充电站来为UAV提供能量, UAV到达目标点执行UGV无法完成的任务, 但遗憾的是其仅在仿真中做了实验. 文献[12]在意大利埃特纳火山的月球模拟地点进行了空地异构团队自主探索实验, 其中UAV负责快速侦察地表环境, UGV配备了机械臂, 负责采集土壤样本以及开展科学实验.
相较于地下隧道和行星表面, 室内探索相对简单, 但是也面临传感器数据易漂移、GNSS拒止的挑战. 文献[90]利用UGV和UAV组成的协作系统探索室内地下室, UAV可以随时起落或停靠于UGV上, 二者共享地图, 共同定位并利用它们的互补能力协同开展探索. 文献[91]实现了空地系统完全自主的行为, 能够探索小型办公室式的环境.
5.3 巡逻修检
在大型工厂、偏远的高压线、漫长的边境线等需要实时检测的环境中[13, 44, 67], 大规模地部署摄像设备实时感知会消耗高昂的成本, 而单纯地依靠人力去巡检又会耗费大量时间. 这些环境往往十分广阔, 仅利用地面机器人巡逻效率十分低下, 而利用空中机器人巡逻又会面临持续巡航时间短的问题. 因此, 将空地机器人联合起来, 利用空中机器人的灵活机动性能、视角广阔的优势快速覆盖巡逻场景, 当其电量耗尽时, 地面机器人可随时为空中机器人提供能量. 与此同时, 当发生意外事故时, 利用地面机器人功能强大的优势可以开展检修工作. 这种空地协同的新型巡逻模式目前得到了广泛应用[44, 67, 154].
文献[44]设计一种由地面车辆与无人机组成的协同电线检测系统, 地面车辆充当移动基站, 当其行驶至高压线附近时, 无人机起飞沿着电线使用机载传感器进行巡检, 技术人员可实时获取无人机捕获的数据和图像. 与此同时, 地面车辆会继续向前移动至靠近高压线的下一个集合点, 并在无人机耗尽能量之前回收无人机, 及时充电或更换电池, 随后无人机可再次快速起飞巡检. 这种巡逻模式大大提高了巡检效率, 并方便技术人员及时采集、分析数据. 文献[67]利用UAV检测美国亚利桑那州边境线上的运动人群, 同时UAV会将检测到的人群位置发送给UGV, 多辆UGV进行跟踪和控制边境地区的人群, 以达到边境巡逻的目的.
5.4 军事作战
空地协同在军事作战中的应用由来已久, 最初它是指空中飞机和地面部队相互配合快速推进战场. 为了避免不必要的伤亡, 武器装备的无人化、智能化升级换代势在必行, 无人空地协同作战系统由此应运而生, 它将空中和地面各个独立的战斗单元联合形成统一的作战实体, 以协作的方式完成战术目标, 实现资源合理调配, 缩短作战时长, 减少人员伤亡. 其中, 空中机器人是实现战场态势感知、通信中继、提供火力支援的重要手段[155], 地面机器人配合空中机器人进行战场清扫, 实现战略推进.
目前空地协同作战在军事中的应用主要集中于空地协同防空、空地协同航路规划和战场清洗等方面[112, 114, 156]. 文献[114]中空地系统无需特殊战术目标指定, 使用机动灵活的UAV执行空中侦察等危险任务, 利用UGV执行火力需求强烈的攻击任务. 具体地, UAV隐蔽潜入目标区域进行侦察, 返回图像情报供指挥员确认. 在此期间, 附近的UGV迅速机动到目标区域, 如果目标确认尚未完成, 执行打击任务的单位已提前到达战场, 则应隐蔽待命, 等待确认后再执行. 任务执行完成后, UAV返回查看执行效果, 如果攻击成功, 将迅速进行损害评估; 如果失败, 迅速更新情况, 重新计划和组织第二波进攻. 文献[156]利用UGV与UAV协作开展排雷工作, 携带UAV的UGV自主地跟踪给定的路径并将数据传输给操作员, 操作员决定是否需要自主起飞无人机, 以在障碍物区域提供额外的信息.
5.5 其他场景
除上述四个典型场景之外, 本文还调查了空地协同在建筑、农业、物流运输等领域的应用.
在智慧建筑中, 空地机器人协作常用于数据收集. 文献[51]介绍了空地协同在建筑领域中的应用, 为解决室内杂乱环境下UGV导航效率低的问题, 利用飞艇与UGV相互配合收集数据, 飞艇为UGV开启“上帝视角”, 能够前往UGV无法到达的位置观察现场, 空地协作的方式有效地提高了自动化程度和数据收集效率.
在智慧农业中, 空地协同常用于估计农作物健康状况与长势, 便于后续科学地投入生产[149]. 文献[149]利用空地机器人收集农作物的氮含量信息, 以估计农作物长势; 文献[157]通过融合UAV与UGV二者视角建立的地图, 帮助人类更好地干预农作物培育过程.
在物流运输领域, 由于UAV存在电池容量少、配送时间短等问题, 而UGV又会造成成本资源的大量浪费, 因此研究者提出利用UAV与UGV组合协同配送物流[158−160]. Pan等[158]利用众包巴士与UAV相互配合解决物流运输的最后一英里问题, 其设计一种基于能量约束的UAV调度方法. Chen等[161]重点研究了应用于城市环境中包裹递送的空地协同路径规划问题, 提出一种结合蚁群优化算法和遗传算法的两步策略来解耦运输路线.
此外, 文献[74, 104]利用UGV配合UAV自动着陆. 文献[109, 162]利用空地团队预防森林火灾, 其中UGV用于消除森林残余物, UAV巡逻监察感兴趣区域. 而在文献[163]中, 空中机器人在地面机器人的协助下进行对接、充电, 以便持续执行任务.
6. 未来挑战与展望
空地机器人之间的互补性在提升系统整体能力的同时带来了异构性挑战, 增加了空地协同群智算法设计难度. 空地协同群智系统的群体特性对其交互模式与仿真平台的设计也提出了更严格的要求. 此外, 在迁移部署群智算法时也存在模拟现实差距、资源受限的研究挑战. 本节将依次介绍空地协同群智系统所面临的问题挑战及未来可能的研究方向.
6.1 空地协同群智算法设计
如何在异构性挑战下高效整合能力互补的空地机器人是空地协同研究过程中关注的重点理论问题. 由于空地主体的异构特性, 空地协同过程会面临着运动、计算、存储和通信等能力的差异, 这些异构特性在保证其灵活、鲁棒地适应动态环境的同时也造成了主体之间的时间分布、空间分布和计算资源分布不均等问题. 例如, 空地主体所处环境的不同导致空地主体建图视角不同, 给地图融合任务带来挑战. 群智算法是空地协同群智系统高效执行任务规划、进行任务分配与调度的核心, 在执行这些任务时需要额外考虑其类型、难度与各主体能力之间的适配关系以及任务之间的耦合性.
从自然界生物的群体活动中提取设计原则[164]是空地协同群智算法设计的主要借鉴对象. 生物群体依据局部观察遵循一定的规则产生群体运动行为, 文献[165]将生物集群行为的涌现规则总结为凝聚、分离和对齐三种形式; 文献[166]借鉴羊群迁徙的生物群智行为总结出“领航者–跟随者”的生物群智模式. 虽然基于这些机理已有许多机器人协作工作[167], 但其仅应用于同构多机器人的协同, 对于不同种群的协作共生机理还未充分挖掘, 异构机器人协作的特殊性挑战仍未得到解决.
多智能体深度强化学习是研究异构智能体协作问题的常用解决思路. 它在学习过程中额外考虑其他智能体行为的影响, 在线规划决策, 整体策略更优[168]. 但由于空地异构智能体观测空间与动作空间相差较大, 空地系统集中学习会大大增加计算复杂度和环境的非稳态, 尤其是当空地主体数量增加时, 将导致整体策略学习低效、扩展性差等问题. 虽然集中式训练分布式执行策略能够一定程度上解决上述问题, 但是其集中学习过程中任意获取其他智能体观测的假设并不合理.
最近大语言模型(Large language model, LLM)和Transformer模型在多机器人任务规划[169]、感知[17]、决策[170]、控制[171]等领域发展迅速, 将其应用于空地机器人协同过程可加强空地机器人的个体智能和群体自主协同能力, 从而促进任务执行效率. 但LLM依赖于概率计算, 不确定性大, 如何增强模型结果的可解释性和可信赖程度仍需要进一步研究.
6.2 空地集群人机交互模式设计
尽管本文关注的是自主化空地团队, 但当面对复杂任务时, 人类的实时监督与及时干预能够防止危险发生. 人机交互(Human-robot interaction, HRI)是人类实现监督和指挥空地团队的一种方式, 如何将空地集群的信息呈现给人类以及如何将人类的信息或命令反馈给空地集群是人机交互的主要目的. 过去的工作往往仅从“单个方向”出发, 强调空地系统如何向人类传递信息[9]或是人类如何控制空地系统[134], 然而当面对动态变化的环境时, 需要人类与空地系统实时交互、相互反馈, 不断理解、推测对方的目标、价值观、意图等心智模型[172], 以实现高效人机交互.
从空地系统向人类反馈信息的角度出发, 以集群的方式展现空地团队的状态信息可有效帮助人类理解与控制空地团队, 例如通过GUI (Graphics user interface)界面获取信息和指导空地团队[164]. 然而空地主体高度异质, 如何表示空地团队内部的相互作用信息和群体意图仍是目前研究的难点[173]. 此外, 在空地协同过程中需要考虑人类体验、情感等因素, 提高空地协同行为决策的可解释性、增加人类信任度能够有效提高协同效率.
从人类传递信息给空地系统的角度出发, 不同于单机交互, 人与空地群智系统交互会面临如何控制所有成员的问题, 对空地系统的通信带宽、响应性、稳定性、容错性、安全性和隐私保护要求也更高[174], 这就要求空地群智系统能够在有限的人类反馈中读懂“人类价值观”, 推断人类意图. 由于空地主体的移动速度相差较大, 以集群为单位发送指令需要额外考虑空地主体的同步性问题, 以避免空地主体工作的“空档期”, 保证任务同步执行.
6.3 高拟真空地仿真平台构建
在空地协同研究过程中, 直接在真实环境下测试群智算法往往成本过高, 耗费大量时间, 并且对于难以建造、调试和维护的机器设备, 直接在真实世界测试会降低研究效率. 另一方面, 由于深度强化学习等数据驱动类算法需要大量试错, 真实环境无法提供足够丰富的数据与标签, 并且模拟现实差距的存在进一步降低了算法部署成功率, 直接在真实环境下测试可能导致不可预期的后果. 因此, 在模拟环境下开展先验测试成为了部署现实世界的必要, 以避免长尾效应、提高算法部署成功率.
表6总结了目前常用的能够模拟空地协同过程的仿真环境. 虚幻引擎(Unreal engine, UE)、Bullet、BGE和ODE是空地模拟平台最常用的物理引擎, 它们为模拟平台提供与真实世界类似的物理规则, 是模拟平台能够正常运行的基础. Gazebo[175]是研究人员最常用的空地模拟器[40, 55, 176], 它依赖于ROS, 支持多种插件, 但在视觉效果上有所欠缺. Pybullet[177]是一款基于Python的模拟器, 它提供动力学功能, 常用于训练强化学习算法[112, 103, 134]. AirSim是微软推出的一款基于UE4的跨平台模拟器[178], 提供了逼真的视觉与物理模拟, 可以支持各式UAV和UGV等机器人的物理视觉仿真, 同时支持基于飞行控制软件、PX4硬件等在环仿真. 除此之外, 一些研究者也陆续开发了各具特色的模拟器, 例如, 支持UAV与腿式机器人的协作模拟器Collaborative robots Sim[179], 融入“软件在环”理念的MORSE (Modular open robots simulation engine)模拟器[180], 提供丰富空地机器人模型的CoppeliaSim (原名V-REP)模拟器[110, 181], 使用神经网络作为渲染引擎并融入真实数据的Gibson Env模拟环境[182].
表 6 空地模拟器总结
仿真环境 |
物理引擎 |
是否开源 |
特点 |
不足 |
Gazebo |
支持ODE、Bullet、Simbody和DART |
是 |
ROS集成使用, 支持多种插件 |
视觉渲染效果差 |
MORSE |
BGE |
是 |
分布计算, 自由度可控 |
同步性差, 无法精确动力学建模 |
Pybullet |
Bullet |
是 |
跨平台, 操作简单 |
运行效率慢 |
CoppeliaSim |
支持ODE、Bullet和Vortex |
是 |
分布式, 支持ROS接口, |
视觉渲染效果差, 运行效率慢 |
AirSim |
UE4 |
是 |
跨平台, 视觉逼真 |
动力学仿真效果差, 物理接口不足 |
Collaborative robots Sim |
ODE |
否 |
基于Gazebo强物理交互 |
视觉渲染效果差, 运行速率慢 |
Gibson Env |
神经网络 |
是 |
融入真实数据, 逼真的渲染效果 |
需要采集大量真实数据 |
然而, 现有的空地仿真平台并不完善, 它们直接面向通用机器人服务, 没有考虑空地协同场景下的“个性化”需求, 存在动力学仿真效果差(不能体现物理相互作用, 如碰撞、摩擦、吸引等)、视觉渲染效果不逼真和运行速率慢三大问题, 而这三者之间又不可兼顾, 动力学和视觉渲染越逼真则运行速率越慢, 因此, 研究人员可根据自身需求寻找适用的空地模拟器. 此外, 将神经网络作为模拟平台的物理引擎、利用真实数据缩短现实差距成为未来提高空地模拟器效果的可行方案.
6.4 空地群智算法迁移部署
目前, 空地协同群智算法大部分仅在仿真环境下进行验证, 将群智算法迁移部署到真实环境以验证其有效性是空地系统实际应用落地的必要环节. 但如果将群智模型算法直接部署到空地主体会面临部署鸿沟的问题, 需要额外考虑如下挑战:
1) 现实差距(Reality gap): 真实世界中空地主体的传感器和执行器不存在仿真环境下的理想条件, 时刻面临着噪音、信号延迟和动力学约束的挑战[183]; 此外, 外界环境的不确定性也会导致仿真模型发生振荡.
2) 低效收敛: 深度强化学习即使在仿真环境下训练也需要耗费大量时间, 而真实环境无法复制仿真环境下的快速迭代与分布式训练的优势, 将耗费更多的时间. 此外, 低样本效率也会导致训练过程收敛困难, 延长训练时间[98].
3) 低安全性: 空地机器人操作不当会导致自身受损, 甚至影响周围人员的安全. 尤其对于空中机器人, 发生意外情况可能直接导致其报废, 造成成本无法控制等问题. 此外, 在超低空域下, 由于空中机器人距地面较近, 搭载相机的空中机器人容易清晰地拍到地面敏感设施和公共隐私[184], 一些犯罪分子也会攻击空地机器人的传感器设备[185]和空地通信链路[186]. 因此, 空地机器人的通信链路安全、传感器设备安全、隐私安全也需要额外考虑.
研究深度强化学习等算法从模拟环境部署真实世界的方法被称为Sim-to-real[187]. 目前Sim-to-real主要包括零样本迁移[188]、域随机化方法[189]、域自适应方法[190]和利用真实世界的数据反馈优化仿真环境下模型的训练[191] (即real-to-Sim)等. 但上述方法仅在单机器人上部署成功, 而空地协同群智系统包括多个空地主体, 需要考虑的状态空间、动作空间维度更多, 计算复杂性更高, 未来仍需不断探索空地协同高效部署方法.
6.5 空地系统智能增强
数据驱动类的AI算法在实际应用时会消耗大量的计算资源、占用许多内存、快速耗尽电池能量, 而设备资源受限的空地主体往往不能满足AI算法的计算需求, 导致精度和实时性过低, 这就需要空地主体携带更多的设备以应对资源不足的挑战. 但为追求任务行动的快速响应、高机动性和安全性, 空地主体所携带的设备又不应对其造成过重的负担. 平衡AI算法资源需求与空地主体性能保障之间的矛盾亟需深入研究. 此外, 当空地主体频繁通信时会造成带宽延迟, 导致实时性变差, 这与搜索救援等任务的快速检测受灾人类、提供危险预警的需求也是矛盾的. 因此, 关于如何解决空地终端设备的资源约束问题以加快AI模型赋能空地主体, 成为当前亟待攻克的难题.
一种方法是利用“云上”资源为空地终端提供算力[192], 云端为空地机器人提供共享知识库和计算资源, 空地机器人作为任务执行终端只负责完成任务, 从而释放机器人本体的计算资源. 这种方式已成功应用于UAV小型目标检测[193]等任务, 但云端为UAV提供强大算力的同时也带来了通信延迟问题, 容易发生网络堵塞[194].
另一种方法是从模型轻量化的角度出发, 旨在设计更轻、更快的模型, 使之能够在资源受限的硬件上实时运行. 常用的轻量化设计方法包括采用深度可分离卷积、分组卷积的方式减少计算量[69]. 但在追求轻量模型设计过程中, 不可避免地要求模型尺寸小、计算复杂度低和电池耗电量低, 而这些要求会导致模型精度下降, 如文献[54]发现轻量级目标检测算法Tiny-YOLO[78]对远距离的小目标检测会出现漏检和误检现象.
因此, 集中若干个计算资源相对较弱的空地个体共同解决计算资源消耗较大的任务, 即空地群智计算, 成为解决资源受限问题的可行方法[115]. 但其也面临如何高效处理与交换大量数据, 并在协同计算中保持数据一致性和准确性的难题.
7. 结束语
随着发展多机器人产业已上升为国家战略, 空地协同作为一种典型的多机器人协作系统, 吸引了学术界和工业界的广泛关注与讨论. 本文关注空地协同群智系统, 旨在利用以深度学习为代表的AI算法和生物群智理论提高空地协同系统的智能化、自主化水平. 然而, 无论是AI算法落地部署, 还是群智机理迁移空地系统, 依然存在诸多挑战, 资源受限、模拟现实差距、空地协同群智算法设计困难等难题亟待解决. 未来, 在新一代人工智能、生物群智理论、认知科学等多学科知识的推动下, 具备自组织、自适应、自学习与持续演化能力的空地协同系统将得到更广泛的应用.
声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨,并不意味着支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们删除。