一般来说,人类是通过感知来做决定的,比如因为看到障碍而回避。这种“动作感”逻辑已经应用于传感器和摄像机,也已经成为当前机器人自主系统的核心。然而,目前的机器自主水平与基于视觉数据的人类决策水平相去甚远,尤其是在处理诸如第一人称视角(FPV)航空导航等开放世界感官控制任务时。不过最近,微软共享的新机器学习系统提供了新的希望:帮助无人机通过图像做出正确的决策。
微软在测试中使用的无人机
微软受到“第一人称视角”(FPV)无人机竞赛的启发,在该竞赛中,操作员可以使用单眼摄像头规划和控制无人机的航向,从而大大降低了发生危险的可能性。因此,微软认为可以将此模型应用于新系统,以便可以直接映射可视信息以实施正确的决策动作。
具体而言,新系统将感知组件(理解“看到什么”)与控制策略(决定要做什么)明确分开,这使研究人员可以调试深度神经模型。在模拟器方面,由于模型必须能够区分模拟与现实世界之间的细微差异,因此微软使用称为AirSim的高保真模拟器对系统进行了训练,然后将系统直接部署到真实环境中的无人驾驶飞机上。
他们还使用了一个名为CM-VAE的自动编码器框架,将仿真和实际之间的差异紧密地联系起来,从而避免了对合成数据的过度拟合。利用CM-VAE框架,将感知模块输入的图像从高维序列压缩为低维表示,如从2000多个变量压缩到10个变量,压缩后的像素大小为128×72,只要可以描述其最基本的状态。尽管系统仅使用10个变量对图像进行编码,但解码后的图像提供了对无人机“所见场景”的丰富描述,包括对象的大小、位置和不同的背景信息。此外,这种尺寸压缩技术是平滑且连续的。
测试站点的侧视图和俯视图
为了更好地展示该系统的功能,微软测试了一个带有前置摄像头的小型敏捷四旋翼机,它试图根据来自RGB摄像头的图像导航。研究人员在45米长的S轨道上测试了装载系统的无人机,S轨道由8个障碍架和40米长的O型轨道组成。实验表明,采用CM-VAE自动编码框架的性能明显优于直接编码的性能。即使在强烈的视觉干扰下,系统也能成功地完成任务。
微软声称:在模拟训练阶段,我们在从未被“看见”的视觉条件下测试了无人机,并将感知控制框架发挥到极致。经过模拟训练,该系统能够在充满挑战的现实环境中独立“自主导航”,非常适合在搜救任务中部署。研究参与者表示,该系统将在实践中显示出巨大的潜力——尽管年龄、大小、性别、种族等因素存在差异,但自主搜救机器人能够更好地识别和帮助人类。
自新型冠状病毒肺炎疫情爆发以来,新利18国际娱乐一直密切关注疫情进展,根据国家及地方政府的最新调控与安排,为更好的服务相关企业,在疫情期间,新利18国际娱乐免费发布企业相关文章,免费成为新利18国际娱乐认证作者,请点击认证,大家同心协力,抗击疫情,为早日打赢这场防控攻坚战贡献自己的一份力量。