上一回为大家引见了人工智能的基本概念和算法,讲到了梯度降落法、神经网络、机器学习的基本概念,还没看过的小同伴能够点击这里。 人工智能有一个重要范畴就是图像辨认。好比:有许多软件能够经过拍照的措施辨认出不同的物体。我用它去拍摄我家的狗,发现它不只能辨认出这是狗,以至还能够辨认出狗的类型。 大家想知道图像辨认究竟是如何做到的吗?今天我们就来聊聊图像辨认中最盛行的算法——卷积神经网络。 01 视觉原理 把一副图像输入计算机,计算机遇把它变成一大堆数字,然后经过全衔接网络和机器学习的大量锻炼知道什么样的数字表示什么物体。但是,假如一切的图像都经过这种措施进行锻炼,效率是十分低的。而且,当图像稍微地进行了放缩、旋转时,计算机可能就不认识它了。 相比来讲,人关于物体的辨认锻炼却十分快——人们只需见到过几次摩托车和汽车,就能牢牢记住他们的区别。下次再遇到摩托车时,哪怕它的方向变了,位置变了,或者撞破了,我们依然能分辨这是摩托车,而不是汽车,这是为什么? 1981年,诺贝尔生理学和医学奖颁发给了神经科学家大卫·休伯尔和瑞典神经科学家托斯坦·威泽尔,以惩处他们发现了视觉的原理。
他们将电极插入猫的脑子中,让猫看到各种线条,察看脑子中电极的反响。他们发现:猫大脑中与视觉相关的神经细胞分为两种,其一只对特定的线条有反响,他们称之为简单神经细胞;另一种对线条的运动有反响,他们称之为复杂神经细胞。 猫脑电极实验 在他们的启示下,日本科学家福岛邦彦提出了神经认知模型。
福岛邦彦说:人类的视觉神经是分层的。首先,物体发出或者反射的光进入眼睛,经过瞳孔晶状体等映照到视网膜上成像。视网膜上的感光细胞会将图像转化为神经激动传送到大脑。 大脑最初接受视觉信号的神经皮层叫做初级皮层V1,它所取得的是一大堆像素点。随后,V1皮层会把处置过的信号传送到V2皮层,V2皮层会得到图像的边沿、方向等信息;V2皮层再次对信号进行处置,进入V3皮层,在这里神经元会取得物体的轮廓、细节等信息… 信号经过多个皮层的传送,最终笼统出物体的大量特征,从而做出判别。 好比你看到我,知道我是李永乐教员。实践上你看到的并不是一个整体的我,而是一堆像素点,这些像素点首先笼统出边沿、方向,发现我似乎是直立行走的,然后又发现了我的轮廓,似乎两个胳膊两条腿,一个鼻子俩眼睛,应该不是昆虫,继续你又看到了更多笼统信息,最终才知道我是李永乐教员。 依据这个发现,许多科学家开端研讨:如何应用计算机软件模仿视神经系统,其中有突出贡献的就是我们上回谈到的杨立昆。他设计了真正适用的卷积神经网络(Convolutional Neural Network, CNN),并且把它用在了图像辨认范畴,取得了庞大胜利。
下面就让我们一同来了解一下卷积神经网络的原理吧! 02 卷积 例如:我们想判别一副图片是不是X,要知道:X的写法其实有很多种 不外,我们认真察看这些图就会发现:它们都有一些共同特征,好比中间应该有个十字交叉、左上部位有个向右下的线条、右上部分有一个向左下的线条等等。固然每一幅图的特征可能不完整一样,但是满足的共同特征越多,图片就越有可能是X。
于是,我们首先经过一些措施来寻觅这些特征,细致措施是:用一个3*3或者5*5的矩阵与图像上对应位置的矩阵做卷积,所谓卷积就是矩阵上对应元素相乘,然后再把乘积加起来。 举个例子:好比我有一个7*7的黑白图像,里面一切的白色都定为1,黑色定为0,把图片转化成一个数字矩阵,我们称为原矩阵。 原图像 然后,选用用一个3*3的矩阵作为卷积核,卷积核右下方对角线是三个1,其他是0。 卷积核 用这个卷积核在原来的图像上从左到右、从上到下滑动。每滑动一步,都把堆叠区域作卷积,如下图所示,这样就取得了一副卷积的结果矩阵,称为特征值矩阵。 第一次卷积计算 第二次卷积计算 这样做的意义在哪里呢?刚才我们说到:我们要提取图片的“特征”。往常,卷积核左上、中间、右下三个数字是1,假如原图片中某个部位也有这样的特征,卷积后特征图该处的部位数字就很大。我们在特征值矩阵上找到比较大的数字,就阐明图片在该处更有可能具有这个特征。我们用卷积核对整个图片矩阵做卷积运算,实质上就是在搜索哪些部位具有这些特征。假如我们再改换不同的卷积核,就能找到图片中不同的特征了。 03 池化、激活、全衔接网络 图片的特征寻觅完了,下一步又该如何做呢? 其实有时分,我们只需求知道这幅图像的某个部位存在这个特征就好了,并不关怀那些没有这种特征的位置。所以,我们能够将无用的信息去掉,减少信息处置量,这个过程叫做池化。 好比,我们能够将特征图中每个2*2的方框内最大的值作为整个方框的值,于是就能够将这特征图减少,从5*5变成了3*3,当然假如我们愿意,它还能够更小,但它依然包含了特征信息和相应的位置。 然后,我们能够将池化后的特征图代入激活函数(例如Sigmoid函数),当特征值比较大的时分,取得的激活值比较大;特征值比较小时,激活值也小。这样,这一层的特征提取就做完了。 总结来讲:阅历了卷积、池化、激活三个步骤,模仿了人眼的一层视神经,经过这一次的操作,我们得到了这张图十分细节的特征。随后我们将第一层的输出作为第二层的输入,进行第二次卷积、池化、激活,取得更大范围的图像特征,以此类推,这就是福岛邦彦所提出的神经认知模型。 最终,当我们取得了足够宏观的信息时,我们就将这些经过处置的信息接入全衔接网络,经过机器学习过程判别最终输出这幅图像是什么。由于信息经过了预处置,所以这回全衔接网络的复杂度远远低于直接将一切数据输入网络的状况。 这里面有两件事要和大家阐明:
怎样样?科学家们的想象是不是十分厉害? 简直完整模仿了人类的认知过程。当我们用数据锻炼机器识图之后,机器最终找到了最优化的参数和卷积核,这个过程就叫做锻炼,就好像小的时分爸爸妈妈带着我们去逛公园,通知我们这是杨树,那是柳树一样。我们把一个机器没有见到过的图片丢给机器,机器也能够判别这个图片到底是什么,固然我们不知道机器到底把参数设置成什么样子。同样,当我们认识了杨树和柳树的时分,简直能够一眼将它们分辨开,但是我们自己却不分明大脑是如何做到这一点的。 回想一下,我们进入人脸辨认系统的时分,有时带着口罩它也能认出我们,由于它提取的特征曾经足够了。但也有时分,人工智能还不太智能,好比我的手机,当我摘下眼镜的时分,它就认不出我了,这一刻我觉得我可能是超人。 04 数据与算力 上一回和这一回,我们花了很长时间引见人工智能的算法原理。其实,除了算法,人工智能还有两个很重要的环节:数据和算力。 俗话说:见多识广,巧妇难为无米之炊。无论算法设计得多优秀,假如没有给机器喂数据,也就是经过大量图片进行锻炼,机器依然无法认出哪怕是一张很简单的图片。所以,具有大量数据是人工智能的一个重要环节。 你可能不知道,我们每个人其实都给机器投喂过数据。好比,有时分你登陆某个网站,网站上会让你辨认含糊不清的文字和数字,以至让你在图中找出各种稀奇古怪的东西。或许你以为这只是网站故意刁难你,但是也很有可能,这是网站在用你的肉体锻炼它的机器呢。你每点一次考证码,它就完成了一次机器学习。 人工智能的另一个重要基础是算力。在人工智能范畴,所需求的计算难度上并不大,好比卷积运算就是简单的加法和乘法。但是由于图片像素矩阵大,卷积核又多,计算工作依然很繁重。举例来讲,一张800*600的彩色图片,RGB三种颜色,像素点有144万个之多。假如用3*3*3的卷积核做一次卷积,需求计算大约1300万次乘法和1200万次加法。这还只是用一个卷积核进行一次处置。在实践的锻炼中需求用成百上千张图进行成千上万次的锻炼。 由于锻炼和检验过程都比较慢,所以以前的人工智能软件基本不能完成实时处置。想想看几年以前,我们用的那些图像处置软件,是不是都要拍好的照片才干处置,没措施实时美颜? 往常,一切都变了,人们发现了比CPU更好的处置措施。 CPU就是计算机的中央处置器,它的特性是能够处置许多复杂的问题,但是并行才干差,只能算完了一个再算另一个,就似乎一个老教授,什么都会算,但是你得一样一样来。 处置显现问题的显卡,里面装有的处置器叫做GPU,GPU的特性是:它只能处置比较简单的问题,例如图像渲染问题。但是它的并行才干十分强,就似乎一万个小学生。处置人工智能问题,其实大量的运算交给小学生就够了,所以人们就习气了用GPU来计算人工智能。GPU的典型的厂商是英伟达,曾经他只是一家专注游戏显卡的公司,随着人工智能时期的近临,英伟达成了时期的弄潮儿。 往常,我们有了更快的人工智能处置器——NPU(神经网络处置器),它是特地用来计算人工智能神经网络问题的,比GPU愈加专注,效率也更高。这种处置器不光是一万个小学生,而且还有超才干,能够同时计算很多道加减法乘除。 好比:华为昇腾910AI处置器,它的结构是华为自主设计的达芬奇结构,昇腾910有32个AI core,也就是32个Cube。这个cube的作用是能够一次性计算16*16*16=4096个元素的内积,而CPU要计算这个过程,需求将近一万次的加法和乘法。昇腾910系列处置器也是同等功耗下当前世界最快的人工智能锻炼处置器。 目前昇腾已普遍应用于运营商、医疗、交通等范畴,为国计民生的智能化进程做出了自己的贡献。好比,昇腾赋能南方电网的案例:在过去,人工巡视户外输电线路需求20天才干完成,应用基于昇腾Atlas 200AI加速模块的AI边侧视频巡检只需求2小时,巡检效率提升了80倍,并且还能及时发现传统人工空中巡视不易发现的隐患点。 随着算力的进步,往常有很多手机都能够完成实时美颜了,以至实时换脸,还能让静态的图片动起来。你在手机屏幕上看到的主播,理想中可能压根儿都认不出来。 人工智能技术是一种通用技术,它能让计算机辅佐人类完成许多繁重的工作,从而极大地解放生产力。而AI 芯片又是人工智能范畴的根技术之一。所谓根技术,是那些能够衍生出并支撑着多个技术簇的技术,它能够持续为整个技术树提供滋养,在很大水平上决议着技术树的荣枯。 在历史上,发作过几次工业反动,每次工业反动都是以科学的突破和根技术的延展为基础。例如十八世纪,牛顿力学和经典热力学呈现了突破,瓦特改进了蒸汽机,带人类进入了蒸汽时期,这就是第一次工业反动,它让英国成为了日不落帝国。十九世纪末二十世纪初,由于法拉第发现了电磁感应,麦克斯韦阐明了电磁波原理,人类发明了发电机和无线电通讯技术,让美国成为世界第一强国,这就是第二次工业反动。二十世纪中叶,由于电子技术、计算机技术的突破,人类疾速进入了电子时期,这就是第三次工业反动,日本抓住了机遇从战争的阴影中走出,一跃成为世界第二兴隆的国度。
前三次工业反动,中国都没有赶上。可是,往常世界正处在以无线互联网、人工智能、新资料、生物科技等技术为代表的第四次工业反动中。在这一次 ,中国人没有缺席,无论是5G技术还是人工智能技术,亦或者是新资料和生物科技技术,中国科学家和企业用了一二十年的时间完成了追逐,在许多新科学和新技术方面都走在了世界的前列。 注:本文最早发布于2021年4月 |