来源:微博等 编辑:yaxin,LQ 【新智元导读】昨日,UC伯克利马毅教授发博称,团队在ICML2021上的投稿得到了4个评审分歧接纳,唯独被AC拒绝,缘由是该研讨并不能解释深度神经网络「一切」的tricks。「第一原理(FirstPrinciple)」成为争议焦点。 近日,UC伯克利马毅教授发博称,自己团队的一篇ICML2021投稿得到了4个评审分歧接纳,却被范畴主席(AC)说尚不能解释目前深度神经网络「一切」的tricks为由拒绝了。 马毅教授表示,自己以为这是迄今为止「真正最接近」提示深度神经网络理论与理论基本原理的框架。 它隐含的意义以至远远超出了仅仅解释目前深度学习的范畴。 既泄露了天机,当然也触动了某些人脆弱的神经。 有的人可能并不希望把深度学习的原理(也就是在做什么能做什么)搞分明,至少希望越晚越好。 马教授团队发表的这篇论文为「ReduNet:AWhite-boxDeepNetworkfromthePrincipleofMaximizingRateReduction」。 全文共有97页,一系列数学公式、还有搭配的各种图表,数据可谓丰厚。 依据马教授的引见,这篇论文彻底梳理分明了整个理论和算法框架。 那么,这篇论文究竟讲了什么内容? 深度学习无需反向传播 从「ReduNet:AWhite-boxDeepNetworkfromthePrincipleofMaximizingRateReduction」这篇论文的摘要的引见能够了解到,该研讨团队的主要工作是试图提供一个合理的理论框架,旨在从数据紧缩和discriminative表示的原理来解释现代深度(卷积)网络。 这项研讨表明,关于高维多分类数据,最佳的线性discriminative表示能够使整个数据集与一切子集的平均值之间的编码率差别最大化。 用于优化速率降低目的的基本迭代梯度上升计划自然会招致多层深度网络——ReduNet,该网络具有现代深度网络的共同特征。 深层体系结构,线性和非线性运算符,以至网络的参数都是经过正向传播逐层显式结构的,而不是经过反向传播来学习的。 如此取得的「白盒」网络的一切组件均具有精确的优化,统计和几何解释功用。 而且,当研讨人员将分类严厉地变为平移不变性(shift-invariant)时,这样派生网络的一切线性算子自然会变成多通道卷积。 该推导还表明,这种深度卷积网络在光谱域中的构建和学习明显更为有效。研讨的初步模仿和实验分明地证明了降低速率目的和相关的ReduNet的有效性。 再来看马毅教授行将所做的「基于第一原理的深度(卷积)神经网络」讲演中引见道: 本次演讲将以完整「白盒」的方式,从数据紧缩(以及群不变性)的角度来结构和阐释深度(卷积)神经网络。 细致会阐明现代深度层次架构、线性(包含卷积)算子和非线性激活,以至一切参数,都能用数据紧缩中「编码率减小」(RateReduction)的原了解释(以及群不变性)。 网络一切层次结构、算子(包含卷积)、以及算子的参数值都能应用前向传播算法显现结构得出,无需反向传播算法中止学习。 由此取得的ReduNet网络具备严厉精确的基于几何、统计、以及优化的意义。 这种基于原理的措施还有以下几个益处: 1提示了不变性和以分类为目的的稠密表之间存在的权衡关系; 2提示了不变深度网络和傅里叶变换之间的基本联络——也就是在谱域中计算的优势(为什么大脑神经元要用频率计算); 3提示了前向传播算法(优化)和反向传播算法(变分)分别表演的数学角色。 我们知道,反向传播算法(BP)是在神经网络上执行梯度降落法的主要算法,它是神经网络的基础。 不时以来,1960年代提出的反向传播算法一度沉寂。直到20世纪,神经网络的火热,BP神经网络盛行各个研讨范畴,GPU的加持了计算机反向传播。 假如说,深度学习算法中不需求反向传播中止学习,可谓是一大改造。 争议焦点:第一原理 许多网友纷繁发表了自己的观念。 有人质疑AC的结论,究竟这种评审全过,AC遭拒的状况并非个例。 也有网友评论,AC拒绝的缘由可能在于FirstPrincipleClaim,AC并不认可FirstPrinciple,所以才会有「尚不能解释目前深度神经网络一切的tricks」。 看到这里就不得不提一下这个FirstPrinciple(第一原理)。 第一原理是从头计算,不需求任何实验参数,只需求一些基本的物理常量,就能够得到体系基态的基天性质。 说白了,第一原理是事物独一的源头,是笼统的,而且比因果律更高级。 好比说,爱因斯坦的质能转换方程E=mc2,就是把物质和能量的关系用一个最简单的公式表示出来,完成了宏观世界的大一统。这就是宏观物理世界的第一性原理。 2020年,马教员团队发表的一篇论文LearningDiverseandDiscriminativeRepresentationsviathePrincipleofMaximalCodingRateReduction.这篇论文中了2020年NeurIPS. 关于这篇论文,马教员在微博中这样描画:这是我终身论文中唯逐一个敢用「Principle」这个字来命名贡献的论文。 这篇论文提出了「MCR^2原理」,即最大编码率衰减(MaximalCodingRateReduction,MCR^2),作为深度模型优化的第一原理的系列工作。 MCR^2原理将监视学习、无监视学习、自监视学习、弱监视学习等一切深度学习的instances圆满地统一在数据紧缩的框架下面。 MCR^2原理基于率失谬误论,描画了划分和紧缩的过程,并能够基于紧缩,完成包含聚类,分类,表示学习,结构网络等等任务,表示了作为学习的普通原理的「泛用性能」。 人物引见 马毅,加利福尼亚大学伯克利分校电子工程与计算机科学系教授,1995年从清华大学本科毕业,2000年从加利福尼亚大学伯克利分校取得硕士及博士学位。 研讨方向为计算机视觉、高维数据剖析、智能系统。 2000年至2011年,任伊利诺伊大学厄巴纳-香槟分校教授,并成为该校电气与计算机工程系历史上最年轻的副教授。 2009年至2014年任微软亚洲研讨院视觉计算团队主任和首席研讨员,2014年至2017年任上海科技大学信息科学与技术学院院长。 马教授发表超160篇学术论文,撰写过计算机视觉、统计学习、数据科学相关的三本教科书。 曾获2004年美国自然科学基金委员会出色青年奖、2005年美国海军研讨署青年研讨员奖、1999年ICCV马尔奖(MarrPrize),曾任国际计算机视觉大会2013年项目主席和2015大会主席。 马教授还是IEEEFellow(2013)、ACMFellow(2017)和SIAMFellow(2020)。 2016年,马教授还被汤森路透的ClarivateAnalytics(科睿唯安)评为全球高引学者。 △马教员在微博上的回应援用了德国数学家DavidHilbert的话 关于网上的讨论,马毅教授在微博回应: 认真读论文、严肃质疑吧。 不要道听途说,不要拾人牙慧,不要盲从权威。 马教员的话也不要全信。 我们的工作也只起了个头,后续还有很多能够展开改进的。 参考资料: |