浅谈生成式人工智能与兵棋推演的未来
人工智能在战略决策中的作用仍在不断变化。人们非常关注伦理、升级动态、测试和评估标准,以及如何在军事规划中最好地协调人与模型之间的关系。然而,在讨论中,生成式人工智能和大型语言模型在兵棋推演和战略分析中的作用往往被忽略。
如果有更多人--从学者和关心此事的公民到军事专业人员和公务员--能够获得生成式人工智能工具,并了解如何将其融入兵棋推演分析工具,那么指导外交政策的思想和辩论将更加多元化。
兵棋推演现状:战略的关键,但成本高昂且不透明
英国国防部兵棋推演手册,将兵棋定义为 “一种结构化但智力自由的安全试错环境,有助于以相对较低的成本帮助我们探索哪些方法可行(即能成功),哪些不可行(即会失败)”。
兵棋是决策的实验室,可以帮助从业人员权衡从战术抉择到部队设计等各个方面的利弊得失。从这个角度来看,兵棋在这方面有着悠久的历史,通常处于政策研究和社会科学的交叉点。
从战时和冷战时期到当代有关对抗中俄的讨论,兵棋推演一直是美国战略分析的主要内容。这些模拟驱动的演练,通过制定虚拟冲突想定来评估战争理论、假设和战略。
因此,兵棋在政策领域有多种用途。它们促进了跨机构和利益相关者之间的对话,营造了一个新想法不断涌现、分析人员可以评估关键假设的环境。这一过程有助于形成决策并为决策提供信息,因为它有助于提高整个政策领域的认识。事实上,兵棋往往是完善战略的私人论坛,也是提高公众对这些问题认识的工具。
无论机密与否,兵棋推演都是一种合成数据。它们以想定为基础,而且在大量研究和敏感情报的支持下,甚至与现实非常接近。兵棋无法预测未来,但话说回来,大多数分析师也无法做到。
兵棋能做的是突出权衡取舍,提供一个分析决策论坛。兵棋还能在分析 “尾部风险 ”和低概率、高后果事件方面发挥关键作用。这种动态使兵棋推演和红队成为战略分析的相关组成部分。
遗憾的是,由美国政府举办或为美国政府举办的现代兵棋推演往往耗资巨大、不透明,而且容易夸大其词。对于运行分析兵棋推演的相关成本,没有清晰透明的核算,兵棋成本一般从数十万美元到数百万美元不等。
如果这幅图景还不够暗淡,美国政府问责局2023年的一项研究指出,“获取兵棋推演数据存在障碍,即将举行兵棋推演的信息没有共享,各军种也没有制定兵棋人员教育和资格要求标准”。
正因如此,胡佛研究所的雅克琳-施耐德等学者开始着手建立一个兵棋资料库,并主张提高设计方法和资金来源的透明度。一些兵棋推演的资金来源并不总是很清楚,包括政府内部和外部的资金来源,这让人对研究结果的客观性产生怀疑。
兵棋推演的未来:制作成本更低且具有复制标准
在兵棋推演中加入人工智能既能降低与兵棋运行相关的传统成本,又能增加对战略和决策进行更严格分析的机会。
从对阵员到角色模拟
分析师可以使用微调数据集来训练模型,以代表不同的利益相关者。兵棋推演得质量很大程度上取决于对阵员的水平,但优秀对阵员的日程往往非常满,他们一直在奔波慢鲁中。为了一场简短的兵棋推演,将人们从世界各地召集到一起的成本非常高。
而那些身处华盛顿特区政治圈内的人的日程安排也非常紧张。如果很难让一名将军或国家安全委员会成员抽出一天时间到华盛顿特区的智库推演兵棋,那么可以想象让一名俄罗斯公民与政府建立联系有多难。
因此,二十一世纪的分析师可以使用生成式人工智能和大语言模型来创建兵棋代理,而不是直接依赖围坐在桌旁的人类对阵员来推演兵棋。最近的研究表明,合成数据可以有效地反映各种人类亚群的反应模式,这对得出特定方面的预测结论很有帮助。使用来自兵棋推演的合成数据来生成行动,可以改变人类对阵员看待问题的方式,促使他们形成不同的观点并展开辩论。
我们可以设想,在新型兵棋推演中,和大多数电子游戏一样,决策者--人类对阵员--能够与人工智能生成的角色扮演者进行互动。例如,每个接受专业军事教育的学员都可以与联盟伙伴一起制定计划,与敌对的人工智能作战,复制敌方的理论甚至战略文化。
这些兵棋的成本较低,传统的差旅费、专家顾问酬金等高昂成本,被转化为收集和整理大语言模型所需数据的人工成本,而通常这种劳动力成本相对较低。此外,兵棋推演时间将缩短,设计团队可以进行多场兵棋推演,收集更多有关决策的数据,而不是进行单次高成本兵棋推演。
从僵化的战争之路到替代方案
兵棋推演的另一昂贵方面--且容易出现抽样偏差的方面--是为了创建兵棋起始条件所进行的“世界化”。为了创建替代性的“世界”,研究团队花费了大量时间开展确认偏差工作,选择最恶劣的地形和最具威胁性的敌方力量近似值来对抗。这一过程代价高昂,而且往往会在不经意间向最糟糕的情况靠拢。条条道路都通向战争,这种倾向会影响对阵员的决策。
问题是,如果从错误的故事开始,对话就会受到限制。这些起始故事--基本想定--以及对阵员角色和他们必须制定的决策是兵棋推演的核心。例如,如果一个人开始危机兵棋推演时,基本想定内容是太平洋对手致力于发动战争,军队已经全面动员,而美国军队并未处于有利位置,政治阶层还存在分裂倾向,那么兵棋的初始条件就会导致对阵员制定决策时受路径依赖性的影响,产生错误的观察。更糟糕的是,能力会被视为抵消其他不利因素的手段,而技术上的“万能解药”会从根本上改变故事。
利用人工智能,兵棋设计师可以综合运用生成图像和文本,以较低的成本创造出多个词语。研究人员可以定制数据集,与创建合成对阵员类似,不是编写一个,而是编写一系列映射不同战争道路(即不同初始条件)的想定。各类起始条件能更好地反映复杂系统对初始条件的敏感程度。
这种变化成为分析决策的重要组成部分,尤其是如果不同的处理方法之间存在差异,就会为评估战略创造更大的可能性空间。只需花费一次传统兵棋推演的成本,分析人员就可以多次运行兵棋,并根据不同的想定假设,了解综合运用哪些目的、方式和手段能产生最佳优势。
此外,降低图像制作成本,超越国家安全博弈中常见的典型 PowerPoint 幻灯片、糟糕的计算机图形和文字繁杂的兵棋包,可以带来更有力的见解。事实证明,艺术实际上能刺激大脑功能。目前,大多数添加了风格化图形和多媒体的兵棋往往会让人大伤脑筋。通过使用 Midjourney 和 DALL*E3 等程序,生成式人工智能可以改变这种状况。
从无标准到复制指南
如前所述,大多数兵棋都缺乏方法,因此即使是最基本的决策见解也很难复制。典型的兵棋报告会详细介绍兵棋想定、对阵员角色和目标,但往往忽略了更广泛的文献综述和方法讨论。读者看到的不是明确的方法描述,而是兵棋规则,通常是会按回合列出行动、反应和反击过程。据美国政府问责局称,在美国国防部这个全球最大的兵棋资助机构中,即使以这种默许方式呈现报告,也没有正式统一的标准。
单靠技术无法克服失败的分析过程。未来使用生成式人工智能构建的兵棋推演,应遵循一套最佳实践,使其与更广泛的科学界所称的复制标准相关联。复制既包括提出见解,也包括解释结果。
事实上,使用严格的复制标准有助于提高研究成果的质量,从本质上讲就是在研究过程中增加了制衡机制。应用到兵棋中,这意味着不仅要制定规则,还要抽象出一个逻辑顺序,阐明在对手作出回应(即反馈回路)和信息不完善(即不确定性)的情况下,如何以及为何做出决策。
这种逻辑顺序的捕捉主要通过整理提示和标注结构化数据来实现。展望未来,它还可以引入红队技术,根据合成数据和对阵员互动,显示特定决策逻辑如何以及何时开始崩溃。换句话说,人始终在环中,人类不仅要设计兵棋,还要对兵棋进行压力测试,并利用测试结果分析决策制定。
结语:你想推演兵棋吗?
现有的生成式人工智能产品为降低成本和提高分析性兵棋推演的严谨性提供了可行的方法。进入该领域的唯一障碍是人类的想象力和传统国防官僚机构考虑战略分析替代方法的意愿。
为此,国防部需要加快对TF LIMA--新的生成式人工智能任务组--等工作的支持,以及对“全球信息主导演习”等实验的支持。
更重要的是,各军种需要开始在较低层次为AI协同人员和其他非机密的人工智能测试提供资金,同时研究如何以最佳方式培训军事专业人员,使其能够与数据聚合模型合作而不是对抗。很有可能,这一行动将需要对专业军事教育进行重大改革,以纳入数据科学、统计学、研究方法和红队等方面的实践课程。
注:本文作者为美国战略与国际研究中心未来实验室高级研究员杰明-詹森,Scale AI联邦交付部门主管丹-塔德罗斯。
本文来源:兵推天下