陌生空间，放心导航

新算法提升机器人感知的稳健性

使用 MATLAB 和 Simulink 开展研究工作

每当麻省理工学院的研究员 Vasileios Tzoumas 去到一个新城市，他都喜欢通过跑步来进行探索。有时他会迷路。几年前，在大阪参会期间的一次长途漫步中，他不幸又迷路了。但后来，Tzoumas 认出了一家 7-11 便利店，他记得刚从酒店出发的时候路过了这里。这让他形成了思维“闭环”，让他脑中原本模糊的轨迹末端连接到了他已知并确信的某个位置，从而强化了他的思维地图，让他找到了返回酒店的路。

渐进非凸性 (GNC) 算法可以帮助机器跋山涉水、上天入地，并且带着所见所闻回到我们身边。

“闭环”其实是一个专业术语，描述机器人在新环境中导航时一种必不可少的常见行为。这是被称为同步定位与地图构建 (SLAM) 的过程的一部分。SLAM 并不新鲜。它用于扫地机器人、自动驾驶汽车、搜索和救援无人机，以及工厂、仓库和矿井中的机器人。无论是客厅里的自主设备还是空中的自主飞行器，每当在新空间中导航，它们都会在行进的同时构建一幅地图。它们还必须使用相机、GPS 和激光雷达等传感器来确定它们在地图上的位置。

随着 SLAM 得到越来越多的应用，确保 SLAM 算法在困难重重的现实条件下也能产生正确结果变得空前重要。如果使用完美的传感器加以实现，或是处于受控的实验室条件下，SLAM 算法通常表现不错；但一旦带着不甚完美的传感器来到现实世界，它们就很容易迷路。也难怪业界客户对这些算法的可信程度持有疑虑。

麻省理工学院的研究人员开发了几种稳健的 SLAM 算法，并提供了证明其可信度的数学方法。麻省理工学院莱昂纳多职业发展助理教授 Luca Carlone 所属的实验室发表了一篇关于他们的渐进非凸 (GNC) 算法的论文，该算法减少了 SLAM 结果中的随机误差和不确定性。更重要的是，在现有方法“迷路”之处，该算法能产生正确的结果。该论文由 Carlone、Tzoumas 以及 Carlone 的学生 Heng Yang 和 Pasquale Antonante 撰写，在机器人与自动化国际会议 (ICRA) 上获得机器人视觉领域的最佳论文奖。该 GNC 算法可以帮助机器跋山涉水、上天入地，并且带着所见所闻回到我们身边。

处处对准

机器人的感知能力依赖于传感器，但这些传感器提供的输入往往包含噪声或具有误导性。借助麻省理工学院的 GNC 算法，机器人能够决定哪些数据点值得信任，哪些数据点应予丢弃。GNC 算法的一个应用为形状对齐。机器人使用二维相机图像来估计汽车的三维位置和方向。机器人接收到一幅相机图像，图像上有许多由特征检测算法标注的点：前灯、车轮、后视镜。同时，机器人的内存中有一个汽车的三维模型。目标是缩放、旋转和放置该三维模型，使其特征与图像中的特征对准。“如果特征检测算法能够完美地完成工作，上述目标就很容易实现，可惜现实中极少如此顺利。”Carlone 说。在实际应用中，机器人面临许多离群值，即错误标注的特征，而这些离群值可能占所有观测值的 90% 以上。这时就轮到 GNC 算法脱颖而出、大显身手了。

机器人使用一个数学函数来解决此问题，该函数考虑每对特征（如图像中的右前灯和模型中的右前灯）之间的距离。他们尝试“优化”此函数，摆正模型，使所有这些距离最小化。特征越多，问题越难。

求解此问题的一个方法是尝试该函数的所有可能的解，找出效果最好的那个，但需要尝试的解太多。Yang 和 Antonante 解释说，一种更常见的方法是“尝试一个解，然后不断微调，例如让模型中的前灯与二维图像中的前灯对得更准，直到无法继续改进”。由于数据含噪，得到的结果不会是完美的：也许前灯能对准，但车轮没有对准。这时，我们可以从另一个解重新开始，尽可能地完善该解，将该过程重复数次，以找到最佳结果。尽管如此，找到最优解的可能性仍然很小。

在实际应用中，机器人面临许多离群值，而这些离群值可能占所有观测值的 90% 以上。这时就轮到 GNC 算法脱颖而出、大显身手了。

尽管含噪测量值中离群值的比例高达 70-90%，GNC 算法仍能找到最优对准。图片所有权：麻省理工学院。

GNC 的第一步是简化问题。该团队将要优化的函数（描述三维模型和二维图像之间的差异）简化为只有一个最优解的函数。这样一来，如果选择一个解并不断微调，最终就能找到那个最优解。这时，他们重新引入原始函数的一小部分复杂性，并改进刚刚找出的解。如此反复，直至恢复为原始函数并求得其最优解。不仅前灯，车轮和保险杠也都对得很准。

探寻闭环

本文将 GNC 算法应用于形状对齐和 SLAM 等问题。对于 SLAM 来说，机器人用传感器数据来计算过去的轨迹并建立地图。例如，在大学校园里漫游的机器人收集里程计数据，以了解其在上午 8:00 至 8:15、上午 8:15 至 8:30 等时间段内走了多远以及朝哪个方向移动。它还具有上午 8 点、8 点 15 分、等等时间的激光雷达和相机数据。偶尔，它会完成循环，在两个不同时间看到相同的东西，比如 Tzoumas 两次跑过7-11 一样。

研究人员发现，该 GNC 算法比现有的前沿方法更准确，并且可以处理更高比例的离群值。

与形状对准类似，SLAM 也需要求解一个优化问题。该论文的第一作者 Yang 解释说：“在 SLAM 中，系统不是通过整理特征来匹配三维模型，而是将其反推的轨迹适当变形，以对准地图上的目标。”首先，该系统会最小化不同传感器感知到的轨迹之间的差异，因为每个传感器都可能有测量误差。例如，如果机器人的里程计显示它在上午 8:00 到 8:15 之间行进了 100 米，则基于激光雷达和相机测量值更新后的轨迹应该体现出该距离，或者与之接近。该系统还会最小化有可能是同一地点的各个定位之间的距离。例如，如果机器人分别在上午 8:00 和 10:00“看”到了同一家 7-11 便利店，则算法会将反推的轨迹变形（调整每条腿），使其在上午 8:00 和 10:00 的推算位置对准，从而形成闭环。

机器人对建筑物内部构建地图。GNC 逐渐解开杂乱的数据。该算法只需相对较少的步骤，就能获得建筑物内部的准确地图。图片所有权：麻省理工学院。

与此同时，该算法能够识别并丢弃离群值。与形状对准中错误标注的特征类似，系统误认为这些错误的数据点是它之前经过的位置。我们当然不想错误地形成闭环。Tzoumas 回忆起自己在缅因州的一次林间漫步，当时，路边一堆倒伏的树干让他感觉很眼熟。他认为已经形成了一个闭环，便以此为地标又走了一阵。走了 20 分钟，他还是没看到其他熟悉的景物，这才意识到可能判断错了，于是掉头返回。

优化前的反推轨迹可以说是一团乱麻。解开后，轨迹呈现为一系列直角拐弯的线，反映出机器人走过的校园小路和走廊的形状。这个 SLAM 过程的专业术语是位姿图优化。

在论文中，研究人员在多项应用中将他们的 GNC 算法与其他算法比较，这些应用包括形状对准和位姿图优化。他们发现自己的方法比现有的前沿方法更准确，并且可以处理更高比例的离群值。在 SLAM 中，即使四分之三的闭环是错误的，该方法依然有效，而现实应用中离群值的比例远不至于这么高。此外，他们的方法在多数情况下比其他算法更高效，需要的计算步骤更少。Tzoumas 说：“过去，我们很难找到一个适合多种应用的通用算法。”Yang 表示，他们已经在十多种应用中尝试了这一算法。Tzoumas 称，他们终于找到了这个“理想算法”。

GNC 算法正确重建了麻省理工学院大圆顶内部的地图。 — MATLAB 生成的地图，根据来自割草机器人的数据创建而成。左：草坪原始地图。中：使用常见 SLAM 算法优化后的地图，包含由未知离群值闭环产生的错误标注数据。右：使用 GNC 算法优化后的地图。

MathWorks 的机器人研究员 Roberto G. Valenti 指出，要扩大研究成果的影响，从研究迈向生产是非常重要一步。MathWorks 一直在与 Carlone 的实验团队合作，致力于将 GNC 算法集成到 MATLAB 中，使其成为 Navigation Toolbox™ 的一部分，该工具箱支持公司用户在商业和工业自主系统上实现 SLAM。

摆脱困境

Carlone 的实验团队正在致力于扩展其 GNC 算法的功能。例如，Yang 的目标是设计出正确性可证明的感知算法。Antonante 则在探索如何管理不同算法之间的差异：例如，如果自动驾驶汽车中的 SLAM 模块认为前方是直路，而车道检测模块认为道路右转，就会带来问题。

GNC 算法成了机器人自主发现错误的新基准工具。

Tzoumas 正在研究如何扩展算法，不仅要实现一个机器人中多个算法之间的交互，还要实现多个机器人之间的协作。在之前的尝试中，他通过多无人机编程来跟踪目标，例如尝试步行或开车逃跑的罪犯。今后，我们或许可以让多台机器协同运行 GNC 算法。每台机器都会贡献一部分信息，综合起来就能构建全局地图，可以是在地球，甚至可以是地球之外。今年，他将调往密歇根大学的航空航天工程系，研究多机器人规划和自主导航的可靠自主性，涵盖战场和其他行星等高难度环境。

“如果无法预料 AI 和感知算法的行为，我们就无法放心应用这些算法。”Antonante 说。他举了个例子，如果博物馆的机器人导游可能撞上游客或者撞向蒙娜丽莎画像，那就显然难以信任。“我们希望系统能对自身及其所处环境都有深度理解，这样系统才能自主发现错误。”GNC 算法成了机器人自主发现错误的新基准工具，而且最重要的是，正如 Tzoumas 所说：“它能帮助你摆脱困境。”