雷锋网AI科技评论按:固然CVPR 2017曾经落下帷幕,但对精彩论文的解读还在继续。下文是宜远智能的首席科学家刘凯对此次大会收录的《用于生物医学图像剖析的精密调理卷积神经网络:主动性&增量性》(Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally)一文中止的解读。 文章引见: 这篇主要针对医学图像处置范畴标注数据匮乏的问题,如何经过卷积神经网络(CNN)的Fine-tune和主动学习(Active Learning)来处置。运用CNN中止生物医学图像剖析在最近几年得到了比较多的关注,但面临的一个问题是缺乏大量的标注数据,相比imagenet,对医学图像中止标注需求大量的专业背景学问,为了节约标注的成本和时间,这篇论文提供了一个新型的措施AIFT(Active,Incremental Fine-Tuning),把主动学习和迁移学习集成到一个框架。AIFT算法开端是直接运用一个预锻炼从未标注数据里找一些比较值得标注的样本,然后模型持续的参与新标注的数据,不时做微调。 AIFT措施是在CAD(计算机辅助诊断)系统的环境下运用,CAD能够生成候选集U,都是未标注数据,其中每一个候选样本(candidate)经过数据增强能够生成一系列的patches,由于这些patches来自于同一个候选样本,所以它们的标签跟该候选样天职歧。 AIFT措施的主要创新点体往常如下几个方面:
一开端标注数据集L是空的,我们拿一个曾经锻炼好了的CNN(好比AlexNet),让它在未标注数据集U当选b个候选集来找医生标注,这新标注的候选集将会放到标注数据集L中,来持续的增量式fine-tune那个CNN直到合格,经过实验发现,持续的fine-tuning CNN相比在原始的预锻炼中重复性的fine-tuning CNN,能够让数据集收敛更快。
主动学习的关键是找到一个规范来评判候选样本能否值得标注,在当前CNN中,一个候选样本生成的一切patches都应该是有差未几的预测。所以我们能够先经过这个CNN来对每个候选样本的每个patch中止预测,然后对每个候选样本,经过计算patch的熵和patch之间KL距离来权衡这个候选样本。假如熵越高,阐明包含更多的信息,假如KL距离越大,阐明patch间的不分歧性大,所以这两个指标越高,越有可能对当前的CNN优化越大。对每个矩阵都能够生成一个包含patch的KL距离和熵的邻接矩阵R。
我们普遍都会运用一些自动的数据增强的措施,来进步CNN的表示,但是不可避免的给某些候选样本生成了一些难的样本,给数据集注入了一些噪音。所以为了显著的进步我们措施的鲁棒性,我们依照于当前CNN的预测,对每个候选样本只选择一部分的patch来计算熵和多样性。首先对每个候选样本的一切patch,计算平均的预测概率,假如平均概率大于0.5,我们只选择概率最高的部分patch,假如概率小于0.5,选最低的部分patch,再基于曾经选择的patch,来构建得分矩阵R。
对每个候选样本中止计算一切补丁的概率散布直方图,关于概率的散布有以下几种方式: 1、patch大部分集中在0.5,不肯定性很高,大多数的主动学习算法都喜欢这种候选集。 2、比a还更好,预测从0-1散布平均,招致了更高的不肯定性,由于一切的patch都是经过同一个候选集数据增强得到,他们理论上应该要有差未几的预测。这种类型的候选集有明显优化CNN模型的潜力。 3、预测散布汇集在两端,招致了更高的多样性,但是很有可能和patch的噪声有关,这是主动学习中最不喜欢的样本,由于有可能在fine-tuning的时分迷惑CNN。 4、预测散布集中在一端(0或1),包含更高的确定性,这类数据的标注优先级要降低,由于当前模型曾经能够很好的预测它们了。 5、在某些补丁的预测中有更高的确定性,并且有些还和离群点有关联,这类候选集是有价值的,由于能够平滑的改善CNN的表示,固然不能有显著的贡献,但对当前CNN模型不会有任何伤害。 应用的创新: 上述措施被应用在了却肠镜视频帧分类和肺栓塞检测上,得到了比较好的效果。前者只用了800个候选样本就抵达了最好的表示,只用了5%的候选样本就代表了剩下的候选样本,由于连续的视频帧通常都差未几。后者运用了1000个样本就抵达了AlexNet做Fine-tune运用2200个随机样本的效果。 该工作的主要优势包含如下几点: 1、从一个完整未标注的数据集开端,不需求初始的种子标注数据。 2、经过持续的fine-tuning而不是重复的重新锻炼来一步一步改善学习器。 3、经过发掘每一个候选样本的补丁的分歧性来选择值得标注的候选集。 4、自动处置噪音 5、只对每个候选集中小数量的补丁计算熵和KL距离,节约了计算。 总结下来,该工作提出的措施显著的减低标注的工作量,并且有指导的选择哪些数据需求标注,同时降低了数据增强带来的噪声影响。这个方向在医学图像处置范畴有十分大的价值,置信会得到越来越多的关注。 论文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Zhou_Fine-Tuning_Convolutional_Neural_CVPR_2017_paper.pdf |