百度长江学堂小二班深夜食堂 | 陆凡:人工智能“喧哗”背后 | Chuang Class
发布时间:2017-08-16 17:25 阅读次数:22976
活动时间
2017年08月05日 09:00
活动地点
百度长江学堂小二班
在8月5日的百度长江学堂二期班第二模块上,触景无限(Senscape)CEO、长江EMBA校友陆凡博士从人工智能的“喧哗”谈起,带领我们走进AI领域,深度解析视觉感知技术以及人工智能感知产品在产业中的应用。
自Alphago围棋大战开始,人工智能再次进入大众视野,掀起一波热潮;而人工智能运用也渐渐与诸多领域进行深度结合,打破产业中的传统运作模式。怎样看待人工智能界“众声喧哗”?AI如何完成感知?又如何抓住技术结构性变化带来的无限机会?
在8月5日的百度长江学堂二期班第二模块上,触景无限(Senscape)CEO、长江EMBA校友陆凡博士从人工智能的“喧哗”谈起,带领我们走进AI领域,深度解析视觉感知技术以及人工智能感知产品在产业中的应用。
长江EMBA校友、触景无限CEO 陆凡博士
喧哗背后的思考
去年之前,人工智能领域有两次大的喧哗:一次是IBM的一款超级电脑Deep Blue打败了当时的国际象棋大师卡斯帕罗夫,另一次是IBM的沃森超级电脑在美国收视率最高的一个有奖问答活动Jeopardy中,作为最终的候选人打败了一同竞选的神童们。
但是,这两次喧哗并没有给人工智能产业带来什么影响。那么今年AlphaGO带起的人工智能界的喧哗是否如前两次一样,过一阵就回归平静呢?我们应从两方面分析:人去哪儿了和钱去哪儿了。
人去哪儿了?Lann leoun、Hinton、bengio、andrew Ng号称学习深度的四大天王,已经全部被企业界包养。他们的运作模式是研究者入驻,把研究者和他整个实验室拉进公司,研究者的课题、方向全部与企业结合,从以前的学术研究变成了企业的一部分。正如李开复形容到,现在人工智能公司就是一个巨大的黑洞。无论你培养多少学生、培养多少教授、培养多少人才,全被这个黑洞所吸引了,没有例外。
钱去哪儿了?很多公司,包括现在的独角兽企业在内,有着极少的利润,但规模却大到令人吃惊。
从以上两方面看,这次人工智能界AlphaGo带来的改变,是不可避免的、结构性的改变。值得注意的是,任何一次技术发生结构性的变化的时候,潜藏的机会是巨大的。结构性的机会,人的一生当中不会太多,像电、工业革命、互联网革命一样,这个机会就那么几次。我们希望在这种大的结构性的变革的时候,任何传统行业或者任何已经觉得发展不错的行业都有机会做得更好。
分享现场
AI如何感知
AI实际是希望机器能模拟自然界的智慧,最主要有三块技术。
第一,认知。我们要有一个聪明的大脑,能够认知。
第二,感知。我们要理解自然,首先当然要感觉这个自然,触摸到一个东西觉得烫把手拿回来,这就是一种感知。
第三,反馈。认知与感知的结合,就有反馈。
现在唯一制约整个人工智能发展的就是感知。对于计算,机器很容易做到;但在感知方面,机器只能非常简单地用传感器去获取客观的事实,处于低端阶段。
人类获得的感知是从哪儿来的呢?如果让大家保留一个感觉器官,估计90%的人说要眼睛。通过眼睛看清世界,这是人类的一个共识。其它的感官基本都是功能性的,负责一块功能。但是视觉感官有更多作用,功能性以外还可以娱乐,也支撑着对人的精神,因此感官中视觉是及其重要的。
我的一家公司名为senscape(触景无限)。早期的1.0阶段我们尝试做AR,要将AR做好首先要把基础技术做好,这就是要做好感知。感知做好了,才有显示与展现。
在我看来,AR是自然界是实实在在的一个空间,我们把自然界做成一个虚拟的空间,虚拟的三维的数字模型,然后把三维模型拉到和现实的景物一样大,虚拟和现实就套在一起了,我们就可以和现实进行互动。
这跟大多数人做的不一样,很多人做AR都是做图片的增强,比如幼儿AR的读物就是这个原理:对着图片看一下小孩玩儿小熊变成3D了,而且3D能跟着对象变化进行改变。但在增强现实中,图片只是很小的一部分,事实上这对于现实来说并没有什么增强。我们要做的,就是增强整个现实。
那这样如何完成感知呢?步骤是先把周围整个扫描下来了,建立3D模型,再把现实套进去。Senscape团队在感知方面做了工作,扩大了感知的格局,使它不仅仅停留在AR方面。其实,AR本身也是AI的一部分,是它展现形式的一部分。
分享现场
视觉感知模仿
人类通过视觉获得感知,机器感知的开发也在于对人类视觉的模仿。
我们可以用婴儿来想象人看东西作为例子。婴儿看事物的时候,眼睛只是提供了光影的摄取,而视神经帮助它理解这件东西。这是人类从眼球到视神经组合起来形成一个视觉系统,这个系统不需要借助外脑。所以在人工智能感知方面,Senscape团队目前的工作就是尽量模仿人的视觉,这与市面上的公司差别还是挺大的。
差别在哪儿呢?其他公司都是在外脑上做识别,需要一个GPU集群王城大量超级计算的工作。Senscape是嵌入式,属于边缘计算,即在设备上、在机器人的眼睛上计算,设备前端完成识别、深度学习等工作。由此,我们可以给整个机器人和设备提供仅限于视觉的单一解决方案。
我们希望通过这项工作推动人工智能产业化的整体发展。从前端开始直接进行运算,同时再把视觉获取的信息和所有传感器获取的信息进行一个合流,将视觉、camera、GPS、高度、超声、陀螺仪等各类获取的信息合在一起。将多传感器融合在一起,才是视觉感知的最佳方式,也能使得视觉感知发挥最恰当的作用。
深度学习颠覆了机器的学习模式。以前是机器按照人的理解进行智能的判断,我们将人所掌握的知识教给机器,让它按照我们的方式做,因此机器永远无法超越人类。但是深度学习是把数据丢给机器,让机器自己去找这个规律;从人的举一反三,直接进入到举百反一。因此机器在大量数据中找出的特征点,往往是人没有发现的。
机器在运算速度、全面性和逻辑上远高于人类水平。因此人类需要做的,就是将深度学习的方法应用到机器中,这样就可以把感知的能力赋予到各个行业,如机器人、AR、辅助驾驶等。
分享现场
研制视觉卡
在前端的嵌入式上完成感知,实际上也存在着巨大的挑战。因为这项技术要求模型不能太大,如何将复杂运算嵌入其中就是一个难关。目前看来,全世界范围内只有这几个东西能完成这个挑战。
一个是英伟达的Tesla系列。它和GPU的原理差不多,只不过是在嵌入式的环境下完成;另一个是创立于爱尔兰的Movidius,去年11月份被Intel收购,发布了芯片。
这两个都是专用芯片,都是为了视觉,特点就是并行计算。以前的芯片是串型的,但是在做大量积极视觉的运算的时候,串型基本没有机会。这就是为什么这些公司现在能够大行其道。
Senscape用英伟达的芯片做了1系列的产品,用Movidius做了2系列的产品,我们把它叫做视觉卡。
视觉卡有三部分:视觉本身识别、传感器融合、深度学习。都在一个小小的卡片上。这个已经可以在前端,机器人建立三维的模型,进行识别这些东西,然后进行实时的处理。
这个视觉卡中的芯片带有一个15厘米的双目,使我们为了完成双目的立体视觉效果做的,它通过三角运算能够获取到深度信息。呈现到图像中就是,在不同深度,事物会发生不同颜色的转变。这些在不同光照下都能完成,即使在没有光照的晚间,也同样适用。被识别的事物都是被动光,没有主动产生光源,因此我们在视觉卡内加入激光,这样就能通过激光反射、回收的飞行时间的计算,判别眼前事物究竟是什么。
而通过深度学习的方法,机器也能识别更多内容。目前我们可以使得这个视觉卡识别人体,单独把手伸过去,它能够辨别出这是人的一部分,但这项技术还不成熟,有时也存在识别不出的情况。
目前视觉卡已经能识别12种东西,通过摄像头将所摄事物识别出来,用不同颜色对应不同东西。摄像头扫过现实图景时,留下各类特征点的点云,这些特征点是矢量信息,带有坐标信息,将它们串在一起,就能构建一个三维模型。比如扫完一个小镇,小镇的模型就能构建出来,我们将模型拉到小镇那么大,就能将它和真实套在一起。
分享现场
算法的应用
一旦拥有传感、驱动和芯片,就可以完成识别和感知,再加上深度学习的方法,视觉卡就能变成一个可扩展、可学习、可提高的环境。将算法深度、精准定位,以及人脸检测、物体识别,包括追踪等融合在一起,就做出了一款产品。
科技界有一个共识的,就是数据秒杀算法。这种算法需要有反馈的数据,机器识别是需要告诉它是对是错。所以有时我们认为很牛的算法,实际上在很多学校里面就是学生一个实习的项目。学生做完之后毕业了,可能就再也没有人去关注它。
但是这个算法放在我们这项产品中是有巨大的价值的,它可能会成为一个应用。我们现在在做的工作,就是提供整个软硬件搭建的平台,让第三方的算法公司跑这些算法,这样我们在各个行业里面就可以往下推进。
从第三方找到算法,我们就能做一张感知卡,这需要大量的行业数据。有了行业数据,机器就可以进行深度学习,就可以获取感知能力,我们就可以重新发明、发现产品,重新去设计产品,这样就形成了一个完整的人工智能的生态系统。
本文根据陆凡在百度长江学堂二期班北京模块现场分享内容整理,有删节。
编辑 \ 周宇彤 孙晓静