汽车是如何转变成智能运输机器人的 _ 经济参考网

　　普通汽车终将退出历史舞台。

　　得益于移动机器人技术的快速发展，汽车即将成为我们可以放心托付自己性命的第一代自主式机器人。在经历了数十年不断失败的尝试后，借助速度更快的电脑、可靠的硬件传感器，以及被称为“深度学习”的新一代人工智能软件，汽车可以获得与人类相似的能力，在无法预测的环境中自主安全驾驶。

　　本书就是为了讲述这场变革。我们之所以对无人驾驶如此关注，原因有两点：

　　首先，具有巨大影响力的新技术一直是我们的关注重点，而无人驾驶汽车很有可能成为我们在有生之年所接触到的最具颠覆性的新机器之一。第二个原因则更加偏向个人需求。就像大多数人一样，无论天气如何，我们每天都要开上一两个小时汽车，车上经常还载有“贵重物品”——孩子、朋友，或者宠物。但其实若有可能，我们并不想坐在方向盘后面，而是更愿意单纯地享受汽车为我们提供的私密性空间和便利性行程。毫无疑问，当谷歌的无人驾驶汽车在几年之前展现出确凿的技术进步之时，我们就开始紧密关注这个领域了。

　　未来的几十年里，无人驾驶汽车将逐渐取代由人类驾驶的汽车。当运输行业演化为一种自动化、即时需求的服务时，世界各地的汽车运送人类和货物的方式就会产生翻天覆地的改变。无人驾驶汽车将会转变我们对时间和空间的认知，如何出行去上班、住在哪里、如何购物等都会受到影响。

　　我们相信这些转变是积极的，因为无人驾驶汽车将会拯救数百万人的生命，自动化的交通管理软件将会顺畅地引导汽车行驶并有助于治理空气污染，父母无须再每天花费几个小时将孩子载到学校或者活动地点，老人和残障人士也将能够便利出行。

　　每一种影响力巨大的新技术都有其不利的一面，无人驾驶汽车也不例外——无人驾驶汽车出现后，数百万的货车司机和出租车司机将会失业。公共运输行业也会凋零，因为人们都会被按需服务的无人驾驶小巴的强大便利性所吸引，它可以随时随地承载任何人到各种地方，而花费不过是一张车票钱。不过，除非有严格的隐私保护措施实施，无人驾驶汽车的乘客终将会意识到，他们其实是牺牲了自己的隐私以换取出行的安全和便利性，因为引导他们乘坐的无人驾驶汽车的软件系统会追踪并记录他们的每次出行。

　　在本书中，我会进一步解释汽车是如何转变成智能运输机器人的。我们会评估无人驾驶将对汽车行业产生的影响；讲述在无人驾驶改变人们的每日出行，将其由一种沉闷而危险的活动变成便及每个人且避免冲突的行为之后，城市发生了怎样的变化；还会探究人们在自动化驾驶探索道路上近六十年的失败尝试。最终，我们会引导读者通过对硬件技术和软件技术的清晰而明确的发展性认识，了解现代的无人驾驶汽车是如何诞生的。

　　我们的目标，就是向读者提供他们在面对即将到来的新世界时所需的见解和认知。在未来，无人驾驶汽车的数量将会远多于由人类驾驶的汽车，我们衷心期望你会享受这趟旅程。

　　在不远的将来，全球汽车博物馆里展览的汽车，都会变成21世纪初之前的那些光鲜靓丽的车型。就像历史的痴迷者来到一个历史遗迹后，会闪身钻入精心保存下来的中世纪小屋回廊里，参观博物馆的人也会钻进这些展览车辆的前排座椅里。这些参观者坐在方向盘后面，拨弄着内置GPS的显示器屏幕，游戏似的用他们的脚踩动着刹车，这一切恐怕会让体验者不禁感叹，21世纪初的人类竟然会用如此不便甚至危险的交通方式。

　　我们当前的汽车是非智能的。它有四个轮子、一个金属机身和一个气动发动机，这样一套标准化的自动系统“平台”，自100年前被引入后就从没有发生过任何本质性改进。而在这100年间，随着越来越多的智能软件，几乎无处不在的通信网络，以及体型不断缩小、价格逐年下降的强大而准确的硬件传感器兴起，世界上其他产业的根基都在发生着根本性的变革。

　　得益于机器人技术和人工智能软件在近期取得的成就，非智能汽车的时代终将结束。普通平凡的汽车即将发展进化成自动化的移动机器人。

　　在近一个世纪的时间里，由人类驾驶的汽车已经改变了我们的生活。这种无需马匹拉动的“自动”车厢的出现，已经改变了“行走之城”的城市格局。曾经如蜂巢一般，由各种小而弯曲的小巷、庭院、商铺、公共广场交织而成的城市演变成了“汽车之城”，打造出了由广阔街道和停车场组成的整齐的大网格。汽车不仅给人们带来了自由，同时也带来了新的工作机会和社交机会。汽车也给商业贸易带来了便利，商人可以快速地将产品运输到以前从未到达过的市场。

　　然而，如此宝贵的个人移动便捷性也让人类付出了极高的代价。在近百年的进程中，交通事故已经夺去了数百万人的生命。当汽车赋予人们开车到远方工作的自由时，也催生了一种新的问题——城市交通拥堵。今天，世界上所有城市的人们每天都要出行、上班通勤，或者通过汽车运送货物，这使得城市上方的空气层恶化成一个黄色烟雾似的“油斗篷”。

　　粗略估计，目前全球有十亿辆由人类驾驶的汽车在陆地上漫游。对汽车的依赖已经使我们在很多方面付出了高昂代价。但归根结底，对于世界上的大多数人而言，汽车仍是目前个人出行中最快速、最廉价、最舒适的方式。不管怎样，汽车仍将是我们现代生活中不可缺少的一部分。

　　事实上，解决汽车引发系列问题的最好方式就是让它们变得更智能。当人类驾驶者让智能软件接管方向盘的时候，无人驾驶汽车将为全世界数十亿人提供一种更安全、更简洁，甚至更方便的出行方式。在未来的十年，自动驾驶汽车将出现在全世界的大街小巷，它将再次重新编排我们的居住环境以及工作娱乐环境。

　　不相信？这也难怪。

　　近百年来，各行各业的专家都在预测人类的霸主地位将会被智能机器所取代。但到目前为止，这些预测仅仅在一些高度细分化的工业岗位上成真了，或者是仅限于虚拟世界中的活动。例如，机械手臂可以完美无瑕地取代曾经由工厂工人实现的操作；在虚拟世界里，人工智能软件的能力已经超越了人类，它们可以玩棋类游戏，可以迅速地进行股票证券交易，或者在复杂的大运量公共客运系统中找出最优路线。

　　现代化的软件极大提升了人工智能的能力，先进的机器人还可以执行诸多技巧性的工作，这些都已成为现实。但是如果机器人的身体并非由螺栓插销固定，而是由仿人类的机械躯干组成，使其能在运动过程中与周边环境互动，那么即使是当前最先进的人工智能软件系统也无法顺利地承载这项复杂的管理任务。在后面的章节中，我们会陆续探讨相关的原因，但目前来看，今天那些能够移动的机器人，在身体敏捷性和感知能力上也就相当于蟑螂的水平——或者状态良好的话，可以达到蟾蜍水平。

　　当机器人学家还在研究移动化智能机器人的道路上步履维艰时，建造一辆踏实可靠的无人驾驶汽车从技术上而言已经触手可及，这同样也是工程学上的一项壮举。因为对于程序员为人工智能写代码操作运动过程来说，汽车相比其他形式的移动化机器人有一个巨大的优势——滚动要比行走或爬行简单得多。

　　如果人工机器人具备多个肢体部件，那么管理其动作快速运行的软件从体量和复杂性上都要比智能汽车大得多，因为多肢体部件可以演化出数量近乎无限大的不同动作模式和相对位置。相反，一辆汽车的四个轮子、刹车以及方向盘组合出的运动模式几乎全部是可预测的。引导无人驾驶运动的软件所管控的动作组合数量必然相当少，例如多半只是车轮的左右转动，或者监控汽车是在减速还是加速。

　　驾驶行为可以自动化的第二个原因在于，开车是一个相对刻板重复的反应式活动，无论智力高低都能拿到驾照，因此无人驾驶的智能只需满足以下条件就够了：对清晰可见的路面危险——比如不断靠近的路面坑洼或者缓慢行走的成群结队小学生——做到即时反应，沿着清晰明了的道路或高速行驶，并且遵守相对简单的交通规则。

　　说到这儿，怀疑论者就会指出这背后一定另有故事。的确，如果只是简单地编辑程序让四个轮子的机器人遵守道路交通规则，那么无人驾驶在几十年前就早已普及了。汽车为什么直到现在才有可能变得智能自动化呢？源于两个原因：

　　第一是现实因素，也就是它的门槛很高。汽车毕竟是行驶在公共街道上的重达两吨的“铁盒子”。如果引导无人驾驶的软件出现了问题，后果将不堪设想。“人命关天”，这也就解释了为什么今天的第一批自动驾驶车辆会先在人烟稀少的地方使用，因为车辆如果在这种地方出问题、偏离既定的路线，所造成的人员伤亡是最小的。例如，在偏僻的澳大利亚北部矿石公司使用巨大的自动化驾驶卡车来运载矿石；农民使用自动驾驶的拖拉机、联合收割机在广袤而无人的农地里耕作；在配送中心和工厂里，专门的自动化车辆会将货物从房间的一侧运到另一侧；在度假村或机场，名为纳维亚的无人驾驶穿梭车会以既定每小时15英里的速度沿着固定路线往返运送乘客……

　　制约无人驾驶发展的第二个难点及关键点就是纯粹的技术问题。虽然在99%的时间里，驾驶过程都是思维僵化而且可预测的，但是仍有1%的时间里会产生突发事件。生物有机体会依赖所谓的“本能（Simple）”来应对生活中突发的未知事件。是“本能”，使人类可以在交通的高峰时段自由驾驶，也正是“本能”，蕴含了人类智能中尤为难以复制的大量能力。

　　机器人学家对这种只在1%的时间内才发生的突发性小概率事件赋予了专门的名称——“极端事件（Corner Cases）”。极端事件并不常见，也难以预测，却可能导致灾难性后果。机器人的人工“本能”在处理极端事件时的效果最终决定了它的可靠性与价值。如果一个机器人的软件无法处理它所遇到的每一个极端事件，那么希望人们不会放任它独自行动，否则最坏的情况就是机器人无法完成交代的任务并造成了严重的破坏。

　　驾驶也许是最为重复刻板的活动，但同时也充满了数不尽的、潜在的致命性极端事件。管理无人驾驶的软件必须能够本能性对突发情况做出反应，例如跳上汽车引擎盖的鹿，或者向汽车挡风玻璃上喷漆的愤怒乞丐，这些都有可能发生——还要祈祷乘客会为挡风玻璃上的污渍付清洁费——所以，尽管投入了几十年的努力，自动化工程师和机器人专家还是无法编写出一个有效的软件，处理无人驾驶在道路上可能遇到的无数种突发状况。

　　机器人技术中一条基本的规则就是，环境越是简单、越是容易预测（极端事件越少），构建一个使机器人在这种环境下执行任务的软件就越简单。机器人能在工厂里广泛普及是因为大多数工厂都是一个封闭的世界、一个高度结构化的环境，在那里极端事件是能够预测的，而且会被工业工程师小心地排除。在封闭的环境中，机器人的工作职能会围绕特定任务进行设计。工厂里的机器人知道将会发生什么。指导它们运行的软件会引导机器人进行一系列一成不变的活动，例如冲压金属部件、固定螺栓，或者将箱子从一侧拉到另一侧。

　　虽然在工厂里可以设计一个整齐划一的封闭式环境，然而在实际环境中，街道和高速公路上是复杂混乱且难以预测的。汽车方向盘后的每个司机不仅要处理新的突发情况，还必须应对其他相关挑战，这些挑战是软件程序难以处理的，由模糊的或者高度情境化的行为规则调控的信息交互问题。人工智能软件尤其会在对安全驾驶有重要影响的两类活动中出现问题，即复杂的非语言信息沟通，和在多种情境中对同一物品进行持续正确识别。

　　驾驶行为要求司机和行人之间进行复杂的“社交”活动。当人类司机位于方向盘后面时，通常会参与到一场非语言的“社交芭蕾舞剧”中，并用点头、挥手、眼神交流来传达他们的意图。挥手和微笑对于人类而言可能是简单的，但是想要编写一套软件来识别人类的面部表情、身体语言并做出恰当的回应，则异常困难。

　　无人驾驶汽车，这一移动版机器人不仅在识别复杂的非言语交流上存在困难，当需要应对突发事件时，它们的计算机智能也会捉襟见肘。这些问题均是由知觉缺陷导致的，即它们不具备对所见事物进行感知区分并合理应对的能力。理想情况下，计算机科学家会通过编写一套程序来解决这个问题，为汽车提供一致性、准确的人工意识和情境理解能力。然而直到

　　目前为止，这个问题还没有被解决，这样的软件还没有做出来。自从人工智能领域开辟半个多世纪以来，计算机科学家和机器学家为了实现“知觉”这一神秘技艺的自动化已经尝试了各种方法，但均未能取得突破性进展。

　　生物有机体的知觉系统包含了一系列广泛的能力。知觉中的一个方面就包含认知识别功能，人或动物因此具有“读取”复杂情境的能力，并知道如何正确地反应。知觉的另一个功能就是加工处理视觉信息。生命体具有高度发达的视觉系统，可以良好地识别一个物体，甚至是从不同的角度、在不同的光线条件以及不熟悉的情境中都可以准确识别同一个物体。

　　视觉感知需要对视觉信息进行正确识别并进行归类，人类在进行这样的过程时，纯粹依靠本能，而且几乎能够做到完美无误。然而，我们这种感知所见事物的能力似乎拒绝被自动化。几十年来，机器视觉领域的研究者一直在努力研发能够快速而准确地“理解”环境中视觉信息的软件，但均以失败告终。

　　在机器人发展史的大部分进程里，它们都难以处理视觉信息。工业机器人应对这一缺点的方式就是在全封闭、黑暗无光的工厂环境中纯机械化地辛勤工作。而对于那些工作中涉及某些视觉活动的机器人，它们的工作方式则被设定为绝不去分类或检查它们不熟悉的事物。

　　阻碍机器视觉软件发展的另一因素就是计算能力的不足。由于处理图像是一项数据密集型活动，所以第一代机器视觉系统只能采取一种结构化路径的方式来实现这一流程，即用一系列“规则”来解析视觉信息。这些早期机器视觉系统的工作原理是想尝试将识别的物体与机器人内部储存的已知物体小型样例库做匹配，但显然这是一个缓慢、不准确也不灵活的过程。

　　早期机器视觉软件的最大缺陷之一，就是它们在应对新鲜事物或情境时表现不佳。即便是很熟悉的物体，只要在略微不同的场景中出现，任何借助这类软件引导的机器人（或汽车）都无法进行准确识别。鉴于准确识别邻近物体这一能力对于安全驾驶至关重要，机器视觉软件的差劲表现数十年来一直阻碍着无人驾驶汽车的发展。然而，最近在人工智能领域的一项突破进展可能会彻底改变这一切。

　　在人工智能研究领域原地踏步多年之后，一种被称为“深度学习（Deep Learning）”的新型软件于2012年诞生了，它可以对随机的数千个数码图像信息进行准确分类，并达到人类水平的精准度。虽然对随机物体的图像进行准确分类的能力听起来无足轻重，但这一能力的确是人工知觉（Artificial Perception）的基础。一旦某个物体可以被精准识别，它的信息会被“转化”给其他类型的人工智能软件，而那些软件就可以发挥其传统优势：利用统计分析或某种逻辑、规则推导出最佳反应。

　　深度学习软件对于无人驾驶如此有价值，就是因为它可以在开阔公路这种非结构化的环境中充分发挥作用。深度学习隶属于“机器学习（Machine Learning）”这一类人工智能软件。这类软件的突破创新并非由人类程序员来设计，机器学习软件并不会去建立一个现实世界的模型，再用正常的逻辑和规则来处理其中的问题，相反机器是通过大量的训练数据后被“喂养”出来的。例如，为了开发无人驾驶所用的深度学习软件，程序员每天会用几千兆字节（Gigabyte，即GB）的原始视觉素材来“喂养”这个软件，而这些视觉素材都是通过车载摄像头在真实道路环境下的行驶中拍摄收集的。

　　深度学习软件通过观察世界来“学习”，这一点赋予了它另一巨大优势——不依赖规则（not rule-bound）。人类的婴儿学会依照物体的突出可识别性特征来识别物体，同理，深度学习软件在对物体分类时也是依据物体的视觉特征。使用规则依赖的传统途径编制的软件，遇到坐在自行车上的猫的图片时，就会陷入困惑。相反，深度学习软件会关注猫身上可供识别的视觉特征——尖耳朵和尾巴，然后不管这只猫是出现在一个多么奇怪的情境中，软件都会迅速而准确地推测出它只是一只猫。

　　深度学习软件已经彻底改进了对人工知觉的研究，并极其成功地应用到语言识别领域，以及其他需要软件来处理古怪异常信息的活动中。过去的几年里，为了寻求深度学习的专业技术支持，很多汽车公司都在硅谷设立了分部。谷歌和百度这些软件巨头本身已经具备了管理巨量信息和构建智能软件的能力，再加上深度学习领域的专业优势，足以支撑它们与曾经不可一世的汽车巨头在无人驾驶领域展开角逐。

　　深度学习对于人工智能领域的影响极其深远，甚至在我们写作本书时，其影响还在逐步拓展，而且未来几年可能会持续扩大。深度学习所引领的技术领域并不只是汽车一隅。我们预计，深度学习将会对移动类机器人的总体发展轨迹产生变革性影响。当机器人获得了通过视觉理解周遭环境的能力时，人工生命形态的发展可能会开始延续5亿多年前有机体生命发展的路径——化石显示大约在寒武纪以前，所有形态的有机体生命都是近乎眼盲的。当5亿多年前寒武纪开启时，那些近乎眼盲的有机体突然神秘地演化出了复杂的新型视觉系统，要知道先前它们的“眼睛”只是些光感性的原始细胞集。一旦它们具备了看的能力，这些简单的有机体随之演化出了复杂的身体形态，以便实现快速的反应和移动。反过来，新的身体机能又会需要发展一个更大号的大脑来监管这些新生肢体的协调。当装备上视觉系统、快速响应的身体以及更大的大脑时，曾经不起眼的细胞集演化出了种类繁杂的复杂生物，它们从最初生命的泥沼中爬出，并努力在陆地上寻求属于自己的一块领地。

　　关于寒武纪生命大爆发——发生在寒武纪时期的生命大量快速演化，有一个有趣假设，即“光开关理论（Light Switch Theory）”。这个理论是由安德鲁�6�1帕克（Andrew Parker）提出的，该理论认为正是眼睛的进化，引发了生命体之间的进化竞赛，使得那些具备最佳视觉的生物才最有可能生存下来。也许“光开关理论”理论对于机器人也是适用的。

　　曾经“眼盲”的机器获得了知觉的能力，它们也会从原始的禁锢中爬出，摆脱现今我们为其设计的结构化的、黑暗的工厂环境。健全的机器视觉将使得机器人可以充分利用其新添加的身体部件——轮子、四肢或踏板，而那些部件能为它们提供更高水平的灵敏度。想要控制复杂的机械新“四肢”，它们的机器大脑也会随之扩张。当我们目睹机器人掌握了新的技能并找到可以发挥功效的新应用场景时，我们也终将见证机器人形态和功能的“寒武纪大爆发”。