Ŀ

ǰλã 香港挂牌资料 > 香港挂牌资料 >

【重磅】李飞飞加入谷歌后首次中国演讲:我的
ʱ䣺2019-10-14

  凤凰开奖直播挂牌二套房最低%。2019-10-12,原标题:【重磅】李飞飞加入谷歌后首次中国演讲:我的选择与机器认知进化(34ppt)

  新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。

  【新智元导读】昨天在极客公园 2017 创新大会(GIF 2017)上,加入谷歌云的斯坦福大学人工智能实验室主任李飞飞首次面对媒体,公开自己进入产业界的原因——让人工智能造福更多的人。李飞飞强调她仍然保留斯坦福的教职和团队。本文附李飞飞在会上的演讲《机器如何看世界》全文。李飞飞在演讲中介绍了她的最新工作——CLEVR,测试机器Language Vision在语义和推理方面的基准。

  【人物简介】李飞飞是斯坦福大学计算机系终身教授,斯坦福人工智能实验室和斯坦福视觉实验室主任。使用神经网络模型等机器学习算法,李飞飞带领团队创造了能够自动生成图说的软件,创建了全球最大的图像识别数据库 ImageNet,每年一度的 ImageNet 竞赛都牵动着整个业界的心弦。李飞飞关于神经网络和计算机视觉的研究大幅推动了人工智能发展,可能为我们带来更直观的图像搜索应用,以及能够在不熟悉的情况下做出决策的自主机器人。

  去年 11月,谷歌云主管 Diane Greene 宣布谷歌云成立新的小组,并发布了新的产品路线图。其中,斯坦福大学AI实验室的主任李飞飞加盟谷歌云的消息在业内引起轰动。

  昨天,GIF 2017 大会上, 在被问到为什么选择加入谷歌,从学术研究圈进入业界时,李飞飞说:

  “首先我想借这个平台澄清一件事情,就是我从今年1月3号开始在Google云担任首席科学家,同时我也保持了斯坦福大学计算机系教授的职位,我的博士生、博士后也还在。(我)并没有离开斯坦福。我希望看到越来越多的一种趋势,就是产业界和学术界有比较密切的结合。你问到为什么我会选择加入Google,我想人工智能带来的一场革命已经没有悬念,虽然才刚刚开始。所以,作为一个人工智能的科技者,我特别的重视人工智能的普世价值,因为它不是一个只应该给少数的有资源的人带来好处的事情,它是整个人类科技进步的推动力。那么在这个大前提下,经过一段时间的思考和面对的选择,我觉得没有比云平台更大的平台能够实现人工智能的普世价值,因为我们各个业界,从金融到健康医疗,到电商、交通、制造业、农业,各个行业在大数据、人工智能的推动下,它都需要云平台。这是最能实现人工智能的普世价值的平台,所以让我做出了这个选择。”

  在被问到对AI发展趋势的看法时,李飞飞说:“AI 将继续地发展进步这是没有悬念的,AI作为一个新兴的领域,给我们带来了很多的期待、很多的机会,也有很多的不确定性。有人说AI是不是有泡沫,我认为是有些泡沫的,有一部分泡沫是会破灭,但是泡沫之后这个行业绝对会给我们整个人类的生活带来一些颠覆性的影响,这一点我是确信的。”

  以下是新智元记者现场整理的李飞飞教授昨天在 GIF 2017 大会的演讲:

  我今天带来的,是比较学术的演讲。我想跟大家分享一下,站在我自己的实验室工作的角度,人工智能过去的发展的路径,和我们最近在做的一些工作。

  人工智能到今天,已经带来了一场革命的开始,不管是天上、地下、云上、手机上,我们都会看到它给我们带来的一些兴奋的可能性。

  其实,“智能”,“intelligence”这个问题,从人类文明的最初期,有了人,就有了这个问题。“我是谁?”,“什么是智能?”。不知道大家是否认识这位法国的哲学家笛卡尔,他在17世纪就提出了“我思故我在”。其实在那个时候,包括在那之前,哲学家们就已经思考什么叫“thinking”,什么叫“existence”,什么叫“being”。

  人工智能没有那么长的时间,人类的历史有上千年,但人工智能只有大概 60 年的历史。人工智能的早期,一个奠基性的人物是艾伦·图灵,大家都知道图灵是个数学家。大概在五六十年前,图灵开始思考怎么去创造一个 Thinking Machine。他说:“要建造一个智能的机器的话,可能最好的方法就是,把最好的感官来提供给它,让它能够学会并且使用人类的语言。”

  一是“感知”(sensing)。我们知道人最大的感知系统是视觉,人还有其他的感知系统,机器也可以有其它的感知系统,但视觉是一个最大的感知系统。

  第二是对含义的理解和推断。语言是人类最特别的一个能力,大多数人都会同意,动物是没有这样的能力的。

  所以,图灵他远远没有建立起人工智能这个领域。但是,他带来了最起初的一些重要的思想元素:我们要做一个会思考的机器,里面需要包括:视觉、语言。

  图灵之后,有这么一位科学家,他是计算机界的一位泰斗,是跟马文·明斯基在 MIT 第一批读人工智能的博士生,后来他到斯坦福做教授,他的名字叫 Terry Winograd。

  Terry 是人工智能界第一代把图灵的思想贯穿下去的人。他也是在世的最伟大的计算机科学家之一,他不光在人工智能领域做了最重要的工作,而且他后来转行去做人机交互,也把这个领域重新带动了起来。

  Terry 带来了什么?Terry 把人工智能应用在了怎么去建造一个思考的机器上。他说一个人,或者一个机器,要去理解世界,需要去感知。感知以后,需要做的第一件事是对这个世界的结构进行理解。

  这叫 Syntax Understanding。Syntax 在自然语言处理领域叫语法,在计算机视觉这个领域可能叫三维结构。Terry 说,Syntax 以后,我们需要理解 Semantics(语义)。Semantis 做的事情就是 Understanding Meaning(了解含义),语言有语言的含义,视觉有物体、有动作,有视觉的含义。

  最后,当我们把 Syntax 和 Semantics 解决以后,智能的机器或者是人,主要解决的问题就是 Inference,Inference 就是统计推导、统计推理这个过程。

  有了这样的思想框架做引导,Terry 写了一篇在人工智能历史上非常重要的博士毕业论文。这个论文给了我们一个 System,我不知道在座有没有同行们听说过这个 SHRDLU,它是一个像积木一样的世界,用积木搭建了一个世界,在这个世界里,让我们来完成 Syntax(语法)、Semantics(语义)、Inference(推导)这样的 loop(循环)。所以比如说在 SHADLU 这个系统里边,人可以指令 SHADLU 这个系统,让它拿起一个 red block,这个计算机系统就会把这个红色的 block 上面的绿色的 block 先移走,然后把这个红色的 block 拿起来。这个系统就不断地这样接受人的指令,然后完成任务。这个过程必须先把指令的语法理解了,然后再把它的语义理解了,然后来进行 inference。

  这篇论文是 70 年代初写的,从 70 年代初一直到 80 年代末 90 年代,其实,人工智能貌似没有太多的发展。为什么呢?如果 70 年代就有一个计算机系统,可以理解人的指令,为什么我们到 2016 年才关注到人工智能?2016 年,亚马逊的 Echo 和 Alexa,也好像做的事情跟这个 SHADLU 的系统区别不大。

  为什么 60 年代、70 年代、80 年代的人工智能, 没有我们预期的做得那么好,问题出在它的 learning 的过程。

  在机器学习这个领域崛起之前,人工智能的系统都是 hand-design rules。这张幻灯片不是想让你看这个 rule 是什么,而是想说这个 rule 有多复杂,而且都完全是用手工,用科学家的聪明的脑袋想出来的 rule。

  这些 rule,会有什么样的问题?其实 Terry 这样绝顶聪明的人,他能建立这个系统,这个 rule 肯定已经是包罗万象了,但是这些 rule 还是有 3 个比较大的致命问题:

  Scalability(可扩展性)。你不可能把天下所有的 rule,都写进一个程序。

  Adaptability(可适应性)。当你给系统设计这个 rule 的时候,你很难把它转换到另外一个 rule。比如说,英文的语法、语义,我可以设计很多 rule。可是,我要把它放进中文,它的语法就完全不一样了,我就得重新设计一套 rule。

  Scalability(可扩展性)。你不可能把天下所有的 rule,都写进一个程序。

  Adaptability(可适应性)。当你给系统设计这个 rule 的时候,你很难把它转换到另外一个 rule。比如说,英文的语法、语义,我可以设计很多 rule。可是,我要把它放进中文,它的语法就完全不一样了,我就得重新设计一套 rule。

  所以说,Hand-design Rules 在 AI 这个领域发展的早期,给我们带来了一些曙光,但是它并没有把我们带进线 年代开始,一个重要的子领域在人工智能领域开始发展,就是机器学习。

  机器学习是什么呢?机器学习和传统的 programing 最大的区别,我在这里给大家画出来了。你可以想象,传统的编程,是用人去设计这个程序,然后在把 input 给它,让机器去做 inference,这就像 Terry 他们做的事情一样。

  但是,机器学习不一样,机器学习是把 human programing 这一层给省掉了,放进了一个学习算法,它可以直接把数据放进学习算法,让这个学习算法去学习一个程序,这个程序可以 take input,然后 infer output。所以这是机器学习和传统编程最大的、本质上思路上的差别。

  在机器学习的发展过程中出现了很多的算法种类,我今天没法详尽地跟大家一一介绍。但最近一个特别重要的算法,就是所谓的 deep learning。 从 80 年代开始,它叫神经网络。神经网络有很长的历史,50 年代 Rosenbatt 就提出了 perception 这个概念,这个概念就是把这些细胞怎么连接起来,然后一层一层地输入数据,然后输出结果(take layers of input and make output)。

  到了 60 年代初,一个重要的神经生物学的发现,又推动了这个思路,这就是 Huble 和 Wiesel,在通过对猫的脑子做实验的时候发现,哺乳动物视觉的感知实际就有这种神经网络的概念,它是一层一层的细胞不断的推进,从简单的层面到复杂的层面。

  到了 1980 年,70 年代末,一个重要的日本计算机科学家,叫 Fukushima,做出了第一个 Neocognitron 的神经网络,可以识别数字和字母。

  到了 90 年代末,通过 Geoffrey Hinton、Yan LeCun 进一步的把学习的 rules 更优化了以后,就出现了今天大家比较熟悉的卷积神经网络。

  互联网给我们带来的海量数据,这也是我和我的学生们在 9 年前做的一项工作 ,ImageNet。

  互联网给我们带来的海量数据,这也是我和我的学生们在 9 年前做的一项工作 ,ImageNet。

  有了这个深度学习和机器学习的崛起,我们其实可以重新回到 Turing 和 Terry 给我们搭建的 AI 大的思路和框架里,重新解决一些在没有机器学习时完全解决不了的问题。

  比如说,计算机视觉里面 Syntax 这个问题,这个问题实际上就是三维场景的结构,视觉世界的结构。这个问题在过去的二三十年有了长足的发展,用了很多机器学习的方法。今天,为什么无人车可以开始产业化,在算法方面很大的原因要感谢 3D 视觉这几十年来的成就。这是其中一部分。

  第二部分,我们说 Semantics 这个问题,在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域,也是在这几年有蓬勃的发展,我们 ImageNet 团队一直在主持一个国际上的竞赛。从 2010 年开始,一直到 2015 年、2016 年,机器的进步,已经基本上达到了,甚至有时候超越了人的水平。

  你现在看到的这幅图是机器的错误率,2010 年第一界 ImageNet 的时候,错误率还在 28% 左右。到了 2015 年,这个错误率已经到了 3.6%,人也差不多就是这个水平。所以,这是一个非常长足的进步。

  刚才我给大家分享的是两个单独的元素:Syntax 和 Semantics。其实,就像 Terry 提出的一样,要真正做好 AI,要把这些元素全部结合起来。我们一步一步来看,下一步要结合的是 Syntax 和 Semantics,在计算机视觉里面它就是场景结构和语义,或者物体含义,一块的融合。

  这项工作,也有不少人做,前段时间斯坦福的另外一位计算机视觉教授 Silvio Savarese 做了项比较重要的工作,就是把这个 3D 的建模和物体场景的识别结合起来了。

  我们再往下推进一步,可以看出,我们现在在尽量完善这个图片。我们现在把 Language 加进来,结合 Vision,这是图灵给我们提出来的机器的智能终极目标之一。

  所以,Language 和 Vision,是最近人工智能界非常关注的点。

  下面这个工作,主要结合的是 Syntax 和 Inference,它 skip 了 Semantics,这是我的实验室最近和 Facebook 的一次合作。我们联合推出了一个视觉问题的 Benchmark(基准),它的意义是什么呢?我们跟 ImageNet 比较一下,ImageNet 主要在测试机器对 Semantics 的认知能力,就是物体分类。

  具体是怎么做呢?具体我们用了一个图像引擎,去模仿很多很多的场景,又回到了更像积木一样的世界。在这些场景里面,我们又自动生成了很多问题。比如说,“这张图里有没有和半球一样大的积木?”这些问题是在挑战这个计算机系统对场景结构的理解,这个结构里面包括物体的大小,或者物体的材料,包括数字计算,也包括比较的能力,也包括空间关系,最后包括逻辑运算。所以,这在测试计算机好几层的能力。

  这个数据库,组成了很多很多不同的场景,提出了很多不同的问题。然后,我们就可以通过用最好的深度学习模型来测试计算机做得怎么样。其中最好的,比如用 CNN 和 LSTM, 没有听过也没有关系,这是一种深度学习的模型。然后我们就会发现,计算机现在远远达不到人类的水平,比如数数能力,或者现在对材料的分析还不够好。而且,我们也远远达不到比较的能力,人是很容易比较出一个东西比另外一个东西大,计算机现在还远远没有达到。

  这项工作还告诉我们,在 Syntaxt 和 Inference 方面,人工智能其实还任重道远,CLEVR 这个 Benchmark,就给我们指出了一些比较明确的方向。

  最后一点,我们怎么把 language vision、Syntax 和 Semantics 一块融合进来?这是最近我们做的一系列关于看图说话的工作。看图说话就是,一个图片进来,我希望这个计算机讲出一个故事,比如一句话「两个男人在玩飞盘」。这个模型,我们是用了一个图片的模型,再加上一个语言的模型。图片的模型用的是卷积神经网络,语言的模型用的是一个 LSTM。

  刚开始,这个计算机在还没有足够学习能力的时候,给出的语句是非常傻的,慢慢的它就开始学习这个图片的内容了。到了最后,它可以说出其中的内容。最近我们把这个工作推进了,看图说话不光可以说一句话,还可以说很多句话,因为每一幅图里面有很多很多的信息。我们可以让计算机说出很多有关这幅图的句子。

  看图说话它还可以说一段话。这是一个还没有被发表的最新的工作,就是我们实验室的两个学生做的,它可以给计算机看一幅图,然后说出一整段跟这个场景有关的话。

  在我结束之前,跟大家分享一下,我们认为下一步计算机视觉和人工智能,包括自然语言处理,还要往下怎么走。

  Terry 和 Turing 给我们指出了这个结合 Syntaxt,Inference 和 Semantics 的路径,我们远远还没有完成这个愿景。比如说这幅图,现在计算机视觉可以告诉我们,这个图里有一些人,甚至这幅图的三维结构是什么,或者给我们一句话或者给我们几句话、N 句话,就像刚才我们看的。

  但是,我们人看到的远远不止这些,我们人看到的是一个非常有意思的故事,我们知道这里面的人是谁,我们知道他们的关系是什么,我们知道他们的情绪是什么,我们知道这幅图的幽默点在哪里。它可以给我们带来很多很多信息,这是计算机现在远远没有达到的。

  负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号返回搜狐,查看更多