高工导读:AI 不只仅能够精准辨认物体,还能够了解图片内容、以至能依据一张图片写一小段文章,还能“看懂”视频...... 今天我给大家带来的是我们最近的一些研讨思绪,今天我的演讲内容是视觉智能。我们都知道,地球上有很多种动物,这其中的绝大多数都有眼睛,这通知我们视觉是最为重要的一种觉得和认知方式。它对动物的生存和展开至关重要。 所以无论我们在讨论动物智能还是机器智能,视觉是十分重要的基石。世界上所存在的这些系统当中,我们目前了解最深化的是人类的视觉系统。从 5 亿多年前寒武纪大爆发开端,我们的视觉系统就不时地进化展开,这一重要的过程得以让我们了解这个世界。而且视觉系统是我们大脑当中最为复杂的系统,大脑中担任视觉加工的皮层占一切皮层的 50%,这通知我们,人类的视觉系统十分了不起。 寒武纪物种大爆发 图片来源:genesispark.com 一位认知心理学家做过一个十分著名的实验,这个实验能通知大家,人类的视觉体系有多么了不起。大家看一下这个视频,你的任务是假如看到一个人的话就举手。每张图呈现的时间是十分短的,也就是 1/10 秒。不只这样,假如让大家去寻觅一个人,你并不知道对方是什么样的人,或者 TA 站在哪里,用什么样的姿势,穿什么样的衣服,但是你依旧能快速精确地辨认出这个人。 1996 年的时分,法国著名的心理学家、神经科学家 Simon J. Thorpe 的论文证明出视觉认知才干是人类大脑当中最为了不起的才干,由于它的速度十分快,大约是 150 毫秒。在 150 毫秒之内,我们的大脑能够把十分复杂的含动物和不含动物的图像区别出来。那个时分计算机与人类存在大相径庭,这鼓舞着计算机科学家,他们希望处置的最为基本的问题就是图像辨认问题。 在 ImageNet 之外,在单纯的物体辨认之外,我们还能做些什么? 过了 20 年到往常,计算机范畴内的专家们也针对物体辨认发明了几代技术,这个就是众所周知的 ImageNet。我们在图像辨认范畴内取得了十分大的进步:8 年的时间里,在 ImageNet 应战赛中,计算机对图像分类的错误率降低了 10 倍。同时,这 8 年当中一项庞大的反动也呈现了: 2012 年,卷积神经网络(convolutionary neural network)和 GPU(图形处置器,Graphic Processing Unit)技术的呈现,关于计算机视觉和人工智能研讨来说是个十分令人激动的进步。作为科学家,我也在思索,在 ImageNet 之外,在单纯的物体辨认之外,我们还能做些什么? 8年的时间里,在ImageNet应战赛中,计算机对图像分类的错误率降低了10倍。 图片来源:dsiac.org 经过一个例子通知大家:两张图片,都包含一个动物和一个人,假如只是单纯的察看这两张图中呈现的事物,这两张图是十分相似的,但是他们呈现出来的故事却是完整不同的。当然你肯定不想出往常右边这张图的场景当中。 这里表示出了一个十分重要的问题,也就是人类能够做到的、最为重要、最为基础的图像辨认功用——了解图像中物体之间的关系。为了模仿人类,在计算机的图像辨认任务中,输入的是图像,计算机所输出的信息包含图像中的物体、它们所处的位置以及物体之间的关系。目前我们有一些前期工作,但是绝大多数由计算机所判别的物体之间的关系都是十分有限的。 最近我们开端了一项新的研讨,我们运用深度学习算法和视觉言语模型,让计算机去了解图像中不同物体之间的关系。 计算机能够通知我们不同物体之间的空间关系,能在物体之间中止比较,察看它们能否对称,然后了解他们之间的动作,以及他们之间的介词方位关系。所以这是一个更为丰厚的措施,去了解我们的视觉世界,而不只仅是简单辨认一堆物体的称号。 Visual Relationship Detection with Language Priors. ECCV. 2016 更有趣的是,我们以至能够让计算机完成 Zero short(0 样本学习)对象关系辨认。举个例子,用一张某人坐在椅子上、消防栓在旁边的图片锻炼算法。然后再拿出另一张图片,一个人坐在消防栓上。固然算法没见过这张图片,但能够表白出这是“一个人坐在消防栓上”。相似的,算法能辨认出“一匹马戴着帽子”,固然锻炼集里只需“人骑马”以及“人戴着帽子”的图片。 让 AI 读懂图像 在物体辨认问题曾经很大水平上处置以后,我们的下一个目的是走出物体自身,关注更为普遍的对象之间的关系、言语等等。 ImageNet 为我们带来了很多,但是它从图像中辨认出的信息是十分有限的。COCO 软件则能够辨认一个场景中的多个物体,并且能够生成一个描画场景的短句子。但是视觉信息数据远不止这些。经过三年的研讨,我们发现了一个能够有更为丰厚的措施来描画这些内容,经过不同的标签,描画这些物体,包含他们的性质、属性以及关系,然后经过这样的一个图谱树立起他们之间的联络,我们称之为Visual Genome dataset(视觉基因组数据集)。这个数据集中包含 10 多万张图片,100 多万种属性和关系标签,还有几百万个描画和问答信息。在我们这样一个数据集中,能够十分精确地让我们超越物体辨认,来中止愈加精确的关于物体间关系辨认的研讨。 图片来源:Visualgenome.org 那么我们到底要怎样运用这个工具呢?场景辨认就是一个例子:它单独来看是一项简单的任务,好比在谷歌里搜索“穿西装的男人”或者“心爱的小狗”,都能直接得到理想的结果。但是当你搜索“穿西装的男人抱着心爱的小狗”的时分,它的表示就变得糟糕了,这种物体间的关系是一件很难处置的事情。 绝大多数搜索引擎的这种算法,在搜索图像的时分,可能很多还是仅仅运用物体自身的信息,算法只是简单天文解这个图有什么物体,但是这是不够的。好比搜索一个坐在椅子上的男性的图片,假如我们能把物体之外、场景之内的关系全都包含进来,然后再想措施提取精确的关系,这个结果就会更好一些。 2015 年的时分,我们开端去探求这种新的呈现措施,我们能够去输入十分长的描画性的段落,放进 ImageNet 数据集中,然后反过来把它和我们的场景图中止对比,我们经过这种算法能够辅佐我们中止很好的搜索,这就远远地超越了我们在之前的这个图像搜索技术当中所看到的结果。 这看起来十分棒,但是大家会有一个问题,在哪里能够找到这些场景图像呢?构建起一个场景图是一件十分复杂并且很艰难的事情。目前 Visual Genome 数据集中的场景图都是人工定义的,里面的实体、结构、实体间的关系和到图像的匹配都是我们人工完成的,过程挺痛苦的,我们也不希望以后还要对每一个场景都做这样的工作。 所以我们下一步的工作,就是希望能够呈现自动地产生场景图的一个技术。所以我们在今年夏天发表的一篇 CVPR 文章中做了这样一个自动生成场景图的计划:关于一张输入图像,我们首先得到物体辨认的备选结果,然后用图推理算法得到实体和实体之间的关系等等;这个过程都是自动完成的。 Scene Graph Generation by Iterative Message Passing. CVPR. 2017 人工智能能够像人类一样看懂视频? Visual Genome 数据集能让计算机更好天文解场景信息,但是还是不够的。而且实践上到往常为止,我们仅仅探求了认知心理学家所讨论的一个概念——现场感知(scene gist perception):只需求悄然一瞥,就能掌握主整个场景中的物体和它们之间的关系。那么在此之外呢? 我想回过头去看看十年前我在加州理工学院读博士的时分做的一个心理学实验,我用 10 美圆/小时的费用招募人类被试,经过显现器给他们快速呈现出一系列照片,每张照片闪现之后用一个相似墙纸一样的图像盖住它,目的是把他们视网膜暂留的信息肃清掉。然后让他们尽可能多地写下自己看到的东西。有些照片只显现了 1/40 秒(27毫秒),有些照片则显现了 0.5 秒的时间,我们的被试能够在这么短的时间里了解场景信息。假如我给的实验费用更高的话,大家以至能做的更好。进化给了我们这样的才干,只看到一张图片就能够讲出一个很长的故事。 2015 年开端,我们运用卷积神经网络和递归神经网络算法好比 LSTM 来树立图像和言语之间的关系。从此之后我们就能够让计算机给简直任何东西配上一个句子。好比这两个例子,“一位衣着橙色马甲的工人正在铺路”和“衣着黑色T恤的男人正在弹吉他”。 不外图像所包含的信息很丰厚,一个简短的句子缺乏以涵盖一切,所以我们下一步的工作就是稠密捕获(dense capture)。让计算机将一张图片分为几个部分,然后分别对各个部分中止描画,而不是仅仅用一个句子描画整个场景。 Deep Visual-Semantic Alignments for Generating Image Deions. CVPR. 2015 除了此之外,我们今年所做的工作迈上了一个新的台阶,计算机面对图像不只是简单的阐明句子,还要生成文字段落,把它们以具有空间意义的方式衔接起来。这与认知心理学家所做的实验当中人类的描画结果是十分接近的。 COCO 软件能够依据图片写出几个句子(粉色部分),而新算法能够生成一个段落(蓝色部分)。A Hierarchical Approach for Generating Deive Image Paragraphs. CVPR. 2017 但是我们并没有中止在这里,我们开端让计算机辨认视频。这是一个崭新且丰厚的计算机视觉研讨范畴。互联网上有很多视频,有各种各样的数据方式,了解这些视频是十分重要的。我们能够用跟上面相似的稠密捕获模型去描画更长的故事片段。把时间的元素参与进去,计算机就能够辨认一段视频并对它中止描画。 视觉认知和逻辑推理的分离 最后,我想谈谈在简单认知以外,我们如何让人工智能抵达任务驱动的水平。从一开端人类就希望用言语给机器人下达指定,然后机器人用视觉措施察看世界、了解并完成任务。 在 20 世纪七八十年代的时分,人工智能的先驱们就曾经在研讨如何让计算机依据他们的指令完成任务了。好比下面这个例子,人类说:“蓝色的角锥体很好。我喜欢不是红色的立方体,但是我也不喜欢任何一个垫着角锥体的东西。那我喜欢那个灰色的盒子吗?” 那么机器或者人工智能就会回答:“不,由于它垫着一个角锥体”。它能够对这个复杂的世界做了解和推理。 最近,我们和 Facebook 协作重新研讨这类问题,发明了带有各种几何体的场景,我们命名为 Clever dataset。这个数据集包含成对的问题和答案,这其中会触及到属性的分辨、计数、对比、空间关系等等。我们会给人工智能提问,看它会如何了解、推理、处置这些问题。 我们将人工智能和人类对这类推理问题的回答做了个比较:人类能抵达超越 90% 的正确率,机器固然能做到接近 70% 了,但是依旧有庞大的差距。有这个差距就是由于人类能够组合推理,机器则做不到。 因而我们开端寻觅一种能够让人工智能表示得更好的措施:我们把一个问题合成成带有功用的程序段,然后在程序段基础上锻炼一个能回答问题的执行引擎。这个计划在尝试推理真实世界问题的时分就具有高得多的组合才干。这项工作我们刚刚发表于 ICCV。 好比我们提问“紫色的东西是什么外形的?”,它就会回答“是一个立方体”,并且能够准肯定位这个紫色立方体的位置。这表明了它的推理是正确的。它还能够数出东西的数目。这都表示出了算法能够对场景做推理。 总的来看,我给大家分享的是一系列超越 ImageNet 的工作: 首先,计算机视觉能够做到除物体辨认之外的关系辨认、复杂语义表征和场景图景的构建; 这之后,我们运用视觉+言语处置单句标注、段落生成、视频了解、分离推理; 最后是任务驱动的视觉问题,这里还是一个刚刚起步的范畴,我置信视觉和逻辑的组合会在这个范畴真正携起手来。 人类视觉曾经展开了很久,计算机的视觉辨认固然在呈现后的 60 年里有了长足的进步,但也依旧只是一门新兴学科。 这是一张我女儿二十个月大时分的照片,视觉才干是她的日常生活里重要的一部分,她读书、画画、察看情感,和这个世界树立各种联络等等,而这些毫无疑问关于她的长大十分关键。视觉认知,或者说视觉智能,关于我们人类的了解、交流、协作、互动等等都是十分十分关键的,而我们才刚刚起步,去探求这个新的世界。(文章来源:科研圈) |