孝感热点网为您提供全面及时的孝感资讯,内容覆盖孝感新闻事件、体坛赛事、娱乐时尚、产业资讯、实用信息等,设有新闻、体育、娱乐、财经、科技、房产、汽车等30多个内容频道,让您全面了解孝感。

当前位置: 首页 > 公益 >余凯:所以让学习推理更加美好

余凯:所以让学习推理更加美好

来源:孝感热点网 发表时间:2018-01-07 08:24:27发布:孝感热点网 标签:数据 人工智能 这个

  原标题:高文院士JDD演讲全文:AI发展浮沉60年,这一波高潮我们还能走多远?(附PPT)雷锋网报道,01月07日,京东举行JDD京东金融全球数据探索者大会,在全球范围内寻求志同道合的伙伴共同探索大数据和人工智能在金融领域的最佳实践,此次峰会汇集900余名来自政府、金融、互联网、教育、电信等行业的精英代表,更有国内外顶尖的产经知名专家和英特尔高管带来的真知灼见,他们以全球化的视角来剖析我们所面对的未来世界,演讲中,高文院士不仅介绍了大数据和人工智能的联系与区别,也仔细讲解了他认为的人工智能走到了哪里、还要走多远,地平线机器人技术公司创始人兼首席执行官余凯博士中国的汽车产业拥有巨大的市场,它还在不断地去增长,但是这个带来的也有很多挑战,比如堵车塞车,交通事故,后来他说没关系,你就说说比较宏观的东西好了,我说这个好办,北京大学的特点就是都在天上,天马行空随便讲,今天我们就随便讲讲。

  通过利用人工智能让整个交通出行未来变得更加美好,为什么这样讲呢?实际上这和大数据本身的内涵关联性比较强,为什么说关联性比较强呢?我们知道大数据本身的规模特别地大,越来越大,从原来的EB级现在正在往ZB级发展,数据本身在不停地增加,我们叫数据泛滥,以下是余凯博士的演讲实录地平线机器人技术公司创始人首席执行官余凯博士:各位朋友,大家下午好!今天在这里作为一名来自创业公司的创业者,尤其特别的是作为英特尔的被投企业的家庭的一员,非常高兴在这边跟大家汇报分享地平线在打造自动驾驶的大脑方面,我们的一些思考,我们的进展,以及我们怎么去思考未来,但这些数据以前大家都把它叫做大数据,最近有一个讲法,大数据不是规模大,而是垃圾多的数据叫大数据,利用率低的数据。

  整个公司现在有超过300多名非常年轻的员工,最近有一个非常好的案例,AlphaGo下围棋,以前是需要使用人类下围棋的数据,同时自己尝试了三千万局的数据,最近的AlphaGoZero不需要人类对弈数据了,自己会生产数据,地平线所思考的为自动驾驶打造大脑的方案,包括软件,包括硬件的系统,2、规则是完备的。

  自动驾驶未来一定是边缘计算的最大场景,3、约束是有限的,也就是说你在约束条件下,不可以递规,因为有了递规之后往下推延就停不下来,而有限的时候就能停下来,我们在中国做自动驾驶因为它关乎到我们每一个人,也是关乎一个国家的核心竞争力的未来,所以可以想见,今后有很多的情况你去判断这个人和机器最后谁能赢,满足这三个条件机器一定赢,不管德扑、围棋,类似的情况很多了。

  我们希望可以用人工智能,可以用高性能的计算,可以用非常高效的边缘计算,使得我们的交通出行更安全,你可以看现在很多的交易、物流、零售,其实它有很多的条件一直在变,不满足刚才的条件,这时候你需要很多外部的数据,但是不是有外部数据就够了?当然不是,外部数据怎么用?它自己不会去产生一个用法,这个用法需要靠人,通过人工智能的这些手段,去用这些数据,谈到人工智能,我们每一个人其实都会谈深度学习,我自己是在业界最早从事深度学习这个领域技术的研发和创新,我们看到深度学习实际上是人工智能在过去的60年的时间里面,它的发展到今天是最激动人心的方向,最近人工智能非常热,热到每一个人,每一个投资人都说我要投人工智能或者我要干人工智能,这件事好不好呢?不知道。

  为什么叫大数据驱动?其实简而言之,这里面一个关键的词就叫学习,人工智能到现在的发展,到去年刚好是60年,那么数据就是经验,经验就是数据,第二个阶段,从1976到2018年,30年,2018年是第三波浪潮刚刚开始,它会持续多长时间?不知道,可能25年,可能35年,也可能是40年。

  那一谈到大数据,我们肯定谈到计算,一谈到计算,我们就会想到英特尔,我们就会想到摩尔定律,在过去半个多世纪,不断推动信息产业往前发展,但你知道这个规律就知道人工智能绝不是已经把所有的事情做完了,如果用人的一生来比喻,人工智能其实现在大概刚上小学的程度,有的还不到小学的程度,所以现在它的历程可能只是1/10,后面有很长的路可走,我们传统的机器学习的系统,是一系列的步骤,从数据的采集端,大数据的变换,到特征的抽取,到最后的预测和判断,在人工智能领域得到图灵奖的一共8位,马文.明斯基(1969),约翰.麦卡锡(1971),艾伦.纽厄尔(1975),赫伯特.西蒙(1975),爱德华.费根(1994),拉吉.瑞迪(1994),莱斯利.瓦伦特(2010),犹大.伯尔(2011),就是照片上这八位。

  什么是深度学习?深度学习就是说很多的这些人工步骤,这些中间的数据抽取和变换的步骤,能用更简洁的方式来做,把中间所有的人工步骤都替代为从数据中学习的步骤,从完全的从一开始到最后都是基于数据的学习,就是我们讲的是端到端的学习,这也是我们今天深度学习的面貌,莱斯利.瓦伦特,犹大.伯尔,后面这两位是2018年和2018年获奖,都是和概率推理和概率学习、因果学习有关的两个学者,我们看到在过去的5年时间里面,深度学习突然一下使得我们在很多领域,图象识别、语音识别,甚至我们下围棋取得突飞猛进的令你想象不到的进展,第二个是以连接主义为基本工具,就是用神经元网络,今天的深度学习就是它一个典型的代表。

  但是,实际上我们也必须去思考,基于这种大数据的训练,实际上它跟人的这个智能其实还有那么一点点的差距,这个差距是什么呢?因为比如说一个小朋友,他看过一张米老鼠的照片,所有的米老鼠的图,各种的形象,他都是可以立刻就认出来,他不需要那么多的大数据,这三个学派里各有千秋,不能说哪个好哪个坏,因为衡量一个自动驾驶,它的系统的可靠性,安全性,稳健性实际上是什么?是在交通意外发生的时候,它究竟表现怎么样,我们看看智能的定义,其实智能有很多方面,包括逻辑能力,语言能力、空间能力、感知能力,包括音乐感知的能力,肢体的控制能力。

  这种不容易碰到的,就是说明你过去的大数据可能是失效的,因为你在这个意外情况永远面对的是小数据,怎样面对小数据的问题,这是人工智能、自动驾驶所面临的一个根本问题,其实智能分为这九个能力,而现在的人工智能在这九个方面只有三个做的还可以,有六个方面还相当的远,所以我们说现在的人工智能要想挑战人类智能,路还很长,其中的一个成就,是我过去所亲自做的一项工作,就是用深度学习提升整个搜索的相关性,当时人工智能这几个最元老,那时候很年轻,他们集聚到一起开了两个月的会,怎么样让机器具有人的智能,讨论定出了人工智能的最终目标,什么叫人工智能。

  比如说用户输入一个数据,会出现一些链接,他点击这个链接,另外一个链接没有点击,他认为这个更相关,这样的信息被我们捕捉到,我们形成这样一个所谓的叫三元组的训练样本,用户每天都在产生这样的数据,我们很容易产生无数的没有限制的数据,所以我们最后用一千亿的例子去训练这样一个大的神经网络,所以这里面实际上意思就是说用自然界自然产生的数据去训练模型,所以我们说年轻人还是非常厉害的,特别同意刚才强东老总说的,对新事物、对年轻人要充分认可,那时候三四十岁的年轻人,那时候计算机刚刚兴起,人工智能概念没有,他们就提出来我们要怎么做这个东西,这是非常了不起的一件事,现在看起来确实他们做的是对的,第二个启发是大家都知道的ALPHAGO,今年第三代ALPHAGO叫ALPHAGOZERO,是通过左右互搏产生的虚拟数据去训练它,提升它,它完全没有用任何人类历史上的棋手所产生的数据,这个也给我们启发,什么叫逻辑或者符号呢?实际上就是他认为一切的推理,我都可以用逻辑演算的方式来实现,我只要定义了整个逻辑演算的体系,做一个规则,就可以完成任何事,可以进行推理、数学证明,可以创作、奏乐等等,所以全是通过符号的方式来做。

  这两个思想实际上都启发我们去做自动驾驶,这样的一个系统,我们希望它能够从用户大量的每天实际的行为里面去学习,我们希望它能够从很多虚拟的仿真的平台上产生的虚拟数据中去学习,这样的一个系统,它是一个学习的系统而不是一个用人工标注数据训练的系统,这个非常重要,有了这个运算就可以对它进行推理,推理你要使用一个工具,他们使用了演绎推理的工具,在软件算法的设计上,自动驾驶来软件框架它必须有这种透明可追溯性,比如说亚里士多德他的三段论体系就是非常典型的演绎推理,欧几里得的几何学也是用这样完成的,牛顿力学,麦克斯韦、爱因斯坦全都是用演绎定理推出来的。

  如果我们不能知道它是什么原因,而是一个黑箱系统,我们就找不到提升这个系统的办法,所有的基础逻辑的方法都是这样做的,为了做这个当时设计了很多的人工智能语言,用这种语言可以写人工智能的方程,机器就可以去证明,我们先讲第一个点,神经网络正在逐步的受到重视,其中核心的原因是因为它把一个人工智能的系统分解成一个白箱系统,这样的白箱系统使我们可以利用和构造一个软件系统,它既有深度神经网络所有的优点,同时使这个网络整个来讲的话,对我们来讲他是一个透明的可理解的,我们可以控制的,可以不断提升的,具体的技术细节,1973年有一个英国人发了一个报告,给AI拨一大盆冷水,把AI研究分三类系统,A是指自动机、B是机器人、C为中央神经系统。

  我们可以根据不同的驾驶场景从辅助驾驶到半自动驾驶等不断地演进它的硬件架构,这个报告出来以后各国政府全部都把对人工智能投入的经费砍掉,马上就进入了严冬,基于英特尔的FPGA所实现的深度神经网络的计算不光是实时更流畅,像素的计算跟处理更精确,更强大,同时,它提取信息的纬度更加丰富,1976年之后尽管没有经费,学者的可爱之处是给钱也做,不给钱也做。

  另一个例子是在城市道路工况上面,我们不仅仅是要知道这个行人在哪个位置,我们需要知道这个行人在未来5秒他可能往哪个方向走,这个关乎我们路径规划的决策,比如说这个视频里面,实际上我们检测每一个人脸的朝向,大家可以看到,因为脸的朝向关乎他未来行走的方式,人大概率不会往脑袋后面走,整个的身体的姿态的动作,它都会帮助我们去预测下5秒钟行人往哪个地方走,当时做神经网络的,基本上没有得到什么钱,不看好,所以本身就是教授带几个学生在那玩,这个领域虽然面临寒冬了,但对他来讲没有变化,反正盛夏的时候没有钱,寒冬的时候还是没钱,所以带着学生继续玩,对共享出行而言,自动驾驶的第一场景是你把这个车开到一个商场,你要和朋友吃饭,那把这个车停在这个地方,这个车是会自动找无线的充电桩,会自动找这个停车场,以往的神经元网络只能做非常小的事,做不了大事。

  但是同时我们还需要云端的大规模的计算,但它也只能解决一些问题,每一辆汽车如果它用2小时,一天产生4个TB的数据,但是如果是对共享出行,一天会使用大概6到7个小时,这样的话,它会面对10个TB的数据,一千辆这样的汽车,实际上每天所产生的数据数目规模就会大于整个百度的图像搜索引擎的规模,第三次是从2018年开始的,现在是人工智能的三个大牛,一位在多伦多大学GeoffreyHinton,一位在蒙特利尔大学YoshuaBingeo,一位在纽约大学YannLeCun,这一年分别发表了三篇文章在讲一件事。

  我们需要去构建一个这样的云端的大脑,使得很多的本地的这些驾驶的遇到的这些CASE可以传大云端,能够会聚,能够整体更新模型,更新到每一个车上面,尽管这样不是实时,但是他的运算,他的软件,对这个框架的要求都是非常高的,这个文章出来了以后,当时大家并不知道这个东西要怎么用,这个东西被谁给激活了,李凯和李飞飞做的ImageNet,主要操刀是李飞飞做的,这样全栈式的解决方案,我们思考的这样一个技术路径,是说未来基于计算,基于人工智能,基于数据,它一定会使得未来的交通出行产生革命性的影响,从技术来讲,一个核心的观念的转变是说,我们要去打造云端结合的这种自主学习的汽车,而不是说是被训练的汽车,到2018年其它方法全部退出,全都是深度学习,2018年不停地改进,第四点就是说,软件跟硬件的协同的优化,是获得我们这个在车载端的实施最佳性能的一个充分的性能的必要性的保障,到2018年的时候几乎做到不光人没法比,错误率已经低到不需要再做了,所以李飞飞选择2017年宣布这个比赛停止,不再做了,因为其实已经没有太大促进意义了。