
杰克·沙纳汉中将(Long。Jack Shanahan)作为备受争议的项目Maven的负责人走到了这条路,他领导了两年,然后于去年成为联合人工智能中心的创始主任。从痛苦的过程中汲取的教训(下面将详细讨论)现在塑造了Shanahan应对国防部正在进行的、新的、雄心勃勃的项目的方法。它们的范围很广,从JAIC在2019年开始进行的相对低风险,非战斗的应用(例如在直升机引擎故障发生之前进行预测)到Shanahan希望在2020年进行的联合作战努力:
联合全域命令与控制:这是一个试点项目,致力于实现也称为多域C2的愿景,该愿景是将陆,海,空,太空和网络空间的所有五个域的所有服务插入一个无缝的环境中网络。连接所有不同且通常不兼容的技术,组织和文化是一项艰巨的任务。
自主地面侦察和监视:这涉及向更多种类的侦察无人机甚至地面机器人添加Maven风格的分析算法,因此该软件可以使人们注意到潜在的威胁和目标,而无需有人观看每一帧视频。
运营中心认知助理:该项目旨在简化部队之间的信息流。它将首先使用自然语言处理来对付无线电震颤,然后将部队对空袭和火炮支援的紧急口头呼吁在几秒钟而不是几分钟内转化为目标数据。
传感器到射击者:这将在Maven的基础上开发算法,该算法可以缩短定位潜在目标,确定优先级并将其呈现给人类的时间,然后由人类决定采取何种行动。为了遵守五角大楼的政策,Shanahan向我保证:“这是关于使人类更快,更高效,更有效。人类仍然将不得不做出有关武器使用的重大决定。”
动态和故意瞄准:这里的想法是瞄准目标(例如,Sensor To Shooter软件找到的目标),并找出哪种飞机最适合用哪种武器沿着哪种飞行路线进行打击- 就像Uber如何匹配您与司机和路线。
“在我所描述的所有情况下都有数据,但是质量如何?数据的所有者是谁?” Shanahan说。“武器系统中存在许多专有数据”,从维护诊断到目标数据,以及“解锁变得比任何人想象的都要难。有时,最好的数据被视为发动机废气,而不是算法的潜在原材料。
他说:“当大多数服务进入AI时,阻碍了它们的是数据。” “他们意识到将正确的数据发送到正确的位置,清理并在其上训练算法是多么困难。”
Shanahan说,当今的军队拥有大量数据,但“我想不出任何真正可用于AI的东西。在遗留系统中,我们实际上是在播放数据,因为它很杂乱,很脏,因此数据变得很复杂。您在数据质量,数据出处和数据保真度方面面临某些挑战,而这些挑战中的每一个都会给您带来挑战。”
虽然五角大楼需要固态数据用于许多不同目的,而不仅仅是AI,但大量的良好数据对于机器学习尤其重要。战争只会在未来变得更加复杂:军事领导人看到使用AI克服这种复杂性的巨大机会,以提高作战效率,减少附带损害并安全地将部队遣返。

Maven的经验教训:给我看骆驼
Maven项目向Shanahan展示了数据处理可能会变得多么困难。Maven的目的是分析人类分析员无法跟上的大量无人机监控视频,训练机器学习算法以识别恐怖活动的提示并进行报告。
Shanahan告诉我:“我们认为这比过去要容易,因为我们从真实任务中获得了数万小时的全动态视频。” “但是它是在有人存储的某个地方的磁带上,很多视频被存储了一定的时间,然后被转储。我们不得不亲自出去捡磁带。”
Shanahan告诉我,虽然军事数据零星且肮脏,但是开源图像库和其他民用资源太干净了,无法教给算法如何理解战区。他说:“如果使用非常干净的,黄金标准的数据集进行训练,它将无法在现实世界中工作。” “更具挑战性-烟雾,霾,雾,云–填补了空白。
Shanahan说:“那么,您就会遇到一些极端情况,这是非常不寻常的,以至于您没有足够的数据来对其进行训练。” “例如,我们可能没有足够的骆驼图像。”这听起来很可笑–直到算法出现故障的前几百次,因为它无法弄清从10,000英尺高空看到的这个奇怪的块状对象是什么。
Shanahan继续说,即使一旦获得了可用形式的数据,您也需要人类对“成千上万,甚至不是数百万的图像”进行分类,以便该算法可以学习例如骆驼的外观,而不是卡车。 ,建筑物和武器。机器学习算法需要查看数百万个带有明显标签的示例,然后才能弄清楚如何处理未标记的新数据。因此,以一种机器可以实际学习的形式来获取数据,需要大量的人工,并且只需要很少的智能即可完成任务。
在Maven上,情报界的分析师为数据标记提供了很多帮助。位于特种作战司令部SOFWERX附近的坦帕市情报系统支持办公室甚至还拆分了一个专门的子部门来支持Shanahan。(该算法战临时计划活动办公室现在也为JAIC提供了帮助)。
即使这样,人力还是一个问题。Shanahan说:“我们从未获得所需的人数,因此我们必须获得承包商的支持。” 与将数据标签外包给中国的商业公司不同,国防部拥有敏感的运营信息,只有拥有安全许可的美国国民才能使用这些信息。在将视频交给清理过的承包商之前,Shanahan说:“您必须摆脱一些敏感的事物和一些极端的图形事物,您不一定希望数据标签制作者查看这些事物。”
总而言之,这是一项艰巨的工作-从未真正完成过。Shanahan说:“当您第一次驾驶它时,该算法将找到您没有对其进行训练的东西。” “通过我们所谓的动态再培训,它们会不断更新。”
甚至民用算法也需要不断调整,因为世界在不断变化。而且许多军事算法必须与正在设法欺骗他们的对手打交道。反制和反制的周期早于战争,但机器学习的兴起催生了对抗性AI的整个科学,以欺骗算法。
“我们在Maven中学习到,即使您提出了不错的算法,如果您在接下来的六个月内不更新该算法,[用户]也会变得愤世嫉俗,并且对它跟不上现实世界的幻想而感到失望”,Shanahan告诉我。Shanahan说,如今,在经过大量简化流程之后,Maven的更新速度甚至是一年前都无法达到的,但仍远远不能达到民用软件几乎每天都可以进行的更新。
超越Maven:联合作战的AI
Maven解决了它的问题-大部分是。空战司令部负责人公开表示,他还不完全相信它的分析,而沙纳汉本人也承认最初的精确度约为50至50。但是,Maven的全部基础是尽快向现场提供初始功能(最低可行的产品),然后获得实际反馈,改进,现场升级并重复。
但是,用于处理全动态视频的工具不一定会转换为新的联合AI中心正在进行的其他任务。
即使JAIC寻求将Maven风格的视频分析应用于其他类型的监控镜头,也需要对算法进行重新培训,以识别不同景观和天气条件下的不同目标,并通过不同类型的摄像机从不同的角度和高度看到它们。Shanahan说:“您不能仅仅针对电光数据训练算法,并期望它在红外下执行。” “我们尝试过。”
JAIC的许多项目根本不涉及视频:范围包括预测直升机引擎故障,使用自然语言处理将部队的空中支援无线电呼叫转换为明确的目标数据。
他告诉我,这是Shanahan倾向于将数据视为矿物而不是石油的另一个原因,他告诉我:“它不像石油那样可替代。”例如,您可以将全动态视频视为钯:对于某些人来说,钯是必不可少的催化剂。应用程序,与他人无关。就像稀有矿物一样,所有各种数据都可以在某个地方找到,只要您能找到它们,就可以从目前拥有它们的人那里获取使用权,并将它们与嵌入其中的垃圾分开。
Shanahan说,没有简单的解决方案。一些人建议严格设置某种自顶向下的格式来格式化和处理数据,但是他认为国防部已经有太多的标准,并且使用不一致。
“很多人只想跳到数据标准。我不知道。”他告诉我。“我们拥有的每个武器系统以及我们拥有的每个数据都符合某个标准。如今,有超过一千种与数据相关的标准。他们只是没有被强制执行。”
他告诉我:“这不是标准的问题,而是政策和治理的问题。” “我们现在必须考虑将数据本身视为一种战略资产。现在,更好的驱动互操作性的方法是从讨论尽可能轻量的元数据标准以及模块化开放系统架构开始。或者换句话说,当涉及到我们的武器系统时,我们需要就“ AI就绪”的定义达成共识。”
Shanahan说,这包括让购置计划的经理传统上专注于他们正在开发,部署和维护的武器的物理性能,将数据视为“与硬件一样,是生命周期管理过程的一部分”。“我看到军方开始就未来武器系统进行对话的迹象。”
他说:“根本问题是:国防部不同于诞生于数字公司的亚马逊,谷歌,微软。” “国防部不是。它最初是一家硬件公司。这是一个工业时代的环境,我们正在尝试将其转变为信息时代的软件驱动环境。”
JAIC的主要贡献之一将是建立一个“通用基础”,将国防部各部门的可用数据和经过验证的算法汇总在一起,以使任何DoD用户都可以访问并满足其特定需求。(他指出,这将需要DoD范围的云计算系统)。
“我们希望拥有允许任何人进入并访问我们共同基础或平台的API [应用程序接口]。我们将发布您需要编写的API定义。” Shanahan说。他说,但是数据的多样性和可用于不同目的的用途意味着“永远不会有一个单一的标准API。”
他说,同样,尽管将有“最小公分母”标准来标记具有各种类别和标签的元数据,但“对于特定于任务的标记,您将具有很大的灵活性。”
这是一项艰巨的任务,但具有同等巨大的潜在利益。Shanahan告诉我,与首席数据官 Michael Conlin一起,“我们正在尝试解决国防部数据中的各种问题,”不仅限于AI。“我很乐观。”
Shanahan告诉我:“人工智能可能会成为该部门如何处理数据的变革动力。” “而且技术变化如此之快,以至于我们今天所经历的痛苦的数据争夺过程很可能会在一年后转变成更加用户友好的东西。”
主题:人工智能,大数据,指挥与控制,国防部CIO,John Shanahan将军,情报监视与侦察,ISR,JAIC,联合全域指挥与控制,联合人工智能中心,联合性,MDC2,多域指挥与控制,Maven项目