在众多生产商着手研发自动驾驶汽车的大环境下,几乎所有的汽车都使用了激光雷达,并用以打造一种传感器。这种传感器可以借助雷达展现三维地图中车辆周围的情况。然而特斯拉的首席执行官埃隆·马斯克却表示,这样的做法是错误的。
今年4月份,特斯拉举办展示活动,介绍其自动驾驶技术。马斯克在这次展会中表示,这些生产商终将放弃激光雷达,因为任何利用激光雷达研发自动驾驶汽车的人都注定失败。随后,特斯拉人工智能专家Andrej Karpathy表示,激光雷达确实为研发提供了一条捷径,但是这种方法并没有考虑到一个基本问题,那就是视觉识别在这当中的重要性。这个方法带给他们一种进步的错觉。
资料图
对此,许多专家发出了质疑。
首先来自密歇根大学自动驾驶汽车试验场MCity的研究员Greg McGuire就指出:从某种意义上来说,这些传感器都是一种依赖。作为工程师,他们就是这么做的,即创造依赖性。
McGuire还表示,只有当自动驾驶汽车真的非常安全可靠时,它才能被社会所接受。想要达到高度的可靠,就要坚持一个重要的原则——冗余。任何传感器最终都会失灵,但如果使用几种不同类型的传感器,借助传感器融合技术,那就可以降低因某一传感器发生故障而导致事故发生的可能性。
其后,又有行业分析师Sam Abuelsamid表示,一旦你将这些理论技术用于现实,有很多未知数你是无法避免的。理论上,你或许可以仅凭相机来采集数据,但若要百分百相信系统的判断是正确的,最好是有其他正交传感模式的辅助,例如像激光雷达这样的传感模式。
4月22日,就在特斯拉展示自动驾驶技术的同一天,康奈尔大学的三位研究人员发表了一篇研究论文,部分支持了马斯克关于激光雷达的说法。计算机科学家们只用了立体相机,最终在KITTI(一种热门的自动驾驶系统图像识别基准)上取得了突破性的成果。该项新技术性能远远优于之前的纯相机技术,并且和“相机+激光雷达”的搭配相比也相差无几。
可惜,媒体对该论文的报道混淆了研究人员的实际发现。例如Gizmodo在报道中表示,这三名研究人员的论文是关于汽车上摄像头的安装位置的,但实际上该论文并没有提到这一点,而Gizmodo也在研究人员联系他之后,修改了他这篇报道。
想要恰当地理解这篇论文,我们就需要了解软件是如何将原始的相机图像转换成有标识的三维模型,在地图上生动地展示汽车周边情况。在KITTI的测试中,如果该算法能够精准地识别汽车周边的每一个对象,并用三维的框框将其标示出来,那么该算法就被认为是成功的。
通常软件处理这种测试分为以下两个步骤。首先,软件通过某一算法运行图像,为图像的每个像素定一个距离估计值。这可通过一对相机和视差效应的原理来实现。研究人员还研发了其他技术,使用单个相机来估算像素间距。在这两种情况下,第二步就是通过高度估计值将像素分组,组成不同的对象,比如汽车、行人或自行车。
康奈尔大学的研究人员将每个立体图像对应的像素转换成由激光雷达传感器生成的三维点云(点云数据指的是:扫描资料以点的形式记录,每一个点包含有三维坐标,有些可能含有颜色信息或反射强度信息)。然后,研究人员将点云数据输入到现有的目标识别算法中。
三位研究人员在其论文中表示,他们的方法在图像识别能力上取得了巨大进步。例如,在KITTI测试的一个版本中,以前纯相机采集数据的准确率最高为30%,而现在借助他们的技术,准确率已经提高到66%。
换句话说,相机+激光雷达的模式比纯相机使用更加精准,这和激光雷达测量距离时精度更高无关,其主要是因为激光雷达生成的“原生”数据格式,恰好更容易让机器学习算法使用。
这篇论文的作者之一Kilian Weinberger指出,他们的论文写的是通过将基于相机的数据转换成激光雷达的点云数据,显著缩小两者之间的差距。
不过,Weinberger也明确表示,激光雷达和非激光雷达之间仍有相当大的差距。在KITTI测试中,康奈尔大学的研究人员将数据的准确率提高到了66%,但在使用相同算法的条件下,直接使用激光雷达生成的点云数据准确率高达86%。