深度对立学习整装待发，或将改动传统AI格局

2023-3-30 13:15| 发布者: fuwanbiao| 查看: 173| 评论: 0

摘要: 我相信这么优秀的你已经置顶了我来源：medium作者：Michael Dietz图：pixabay本文作者是waya.ai的开创人Michael Dietz，该作者对生成式对立网络（GANs）颇有研讨,本文，他就深化浅出地为我们引见了深度 ...

defem_loss(y_coefficients, y_pred):

returntf.reduce_mean(tf.multiply(y_coefficients, y_pred))

# construct computation graph for calculating the gradient penalty (improved wGAN) and training the discriminator

# sample a batch of noise (generator input)

_z =tf.placeholder(tf.float32, shape=(batch_size, rand_dim))

# sample a batch of real images

_x =tf.placeholder(tf.float32, shape=(batch_size, img_height, img_width, img_channels))

# generate a batch of images with the current generator

_g_z =generator_model(_z)

# calculate `x_hat`

epsilon =tf.placeholder(tf.float32, shape=(batch_size, 1, 1, 1))

x_hat =epsilon *_x +(1.0-epsilon) *_g_z

# gradient penalty

gradients =tf.gradients(discriminator_model(x_hat), [x_hat])

_gradient_penalty =10.0*tf.square(tf.norm(gradients[0], ord=2) -1.0)

# calculate discriminator's loss

_disc_loss =em_loss(tf.ones(batch_size), discriminator_model(_g_z)) -

em_loss(tf.ones(batch_size), discriminator_model(_x)) +

_gradient_penalty

在TensorFlow中执行Wasserstein距离与梯度惩罚

终于，我们能够说，这是我们第一次锻炼各种GAN架构，而简直没有超参数调整，包含101层ResNets和离散数据的言语模型！

运用Wasserstein距离的益处之一就是，随着评论者的改进，生成器将会从中得到改善后的梯度。当运用Jensen-Shannon分流时，随着鉴别器的改进，梯度将会消逝，而生成器无法从中学习（这是锻炼不稳定的主要来源）。

假如对这个问题感兴味，想对这些概念有一个坚实的理论认识，我倡议大家阅读这两篇论文：

Wasserstein GAN（）

Improved training of Wasserstein GANs（）

完成

详见github中开源代码：

结论

对立学习使我们能够从我们对问题范畴的了解存在的任何限制或局限中，释放我们的模型——关于要学习的内容没有任何预想，而且模型能够自由地探求数据。

我相信这么优秀的你

已经置顶了我

来源：medium

作者：Michael Dietz

深度对立学习整装待发，或将改动传统AI格局

图：pixabay

本文作者是waya.ai的开创人Michael Dietz，该作者对生成式对立网络（GANs）颇有研讨,本文，他就深化浅出地为我们引见了深度学习范畴中最火的研讨方向，以及面临的相关问题。

对立学习（Adversarial learning）是深度学习中最受欢送的范畴之一。假如你阅读过arxiv-sanity（）的话，你就会留意到，当前最受欢送的研讨范畴的大多数都是在研讨这一方向。

而这篇文章将要教给你的是：

解释我们应该关注对立学习这一范畴的缘由

扼要引见生成式对立网络（GAN）及其相关的主要应战

总结最近的研讨（Wasserstein GAN，改进Wasserstein GAN的锻炼），处置这些应战并稳定GAN锻炼（包含实施）

经典机器学习——深度学习

之前我在美国伊利诺伊大学香槟分校看了一场关于“模仿信号和系统课程”的收场演讲，在演讲中教授自信地断言：

这是你最重要的课程，而笼统是工程中最重要的概念。

针对复杂性这一问题的处置计划就是笼统，我们也称之为信息躲藏。笼统只是消弭不用要的细节。这个想法是为了设计复杂系统的一部分，你必须肯定这是其他人必须知道的那部分，以便设计其部件，以及你能够将哪些细节中止躲藏。其他人必须知道的那部分就是笼统。

—— cs.cornell.edu

深层神经网络学习数据的分层表示。网络中的层，以及他们学习的表示方式是彼此相互树立的，层数越多，笼统层次也就越高。给定原始数据，讯问网络的问题以及评价网络答案的目的函数，网络学习以最佳的方式来表示（笼统）此数据。

这个概念的结果是，该网络学习并执行特征工程。与经典机器学习措施相反的是，其中预期包含与手动任务相关的信息的特征被手动辨认，并从数据中提取出来，从而降低“学习”算法的输入维度。

当数据的基础结构，方式和机制经过学习，而不是手工制动的时分，AI的以前不可行的应用程序被启用，而其超人性化也将成为可能。

深度学习到深度对立学习

几年前，我遇见过一个拳击教练，他不会让新的拳击手问问题。由于假如新的拳击手问错了问题，就会得到了他们不需求的答案，然后专注于错误的事情。

提出正确的问题需求与提供正确答案一样多的技艺。

——Robert Half

对立学习的美好之处在于，我们的网络完整从数据中中止学习——要问的问题，相应的答案以及对这些答案的评价。与经典深度学习措施相反的是，预期与手头任务相关的问题被手动辨认，手动制造的目的函数指导我们的网络优化，从而学习相应的答案。

Deep Mind最近展示了AlphaGo深度（对立）学习的庞大潜力，显现AlphaGo发明了新学问，并在围棋中教授了新的理论。这带来了围棋的一个全新时期，并让玩家破解了一个他们被困了数千载的僵局。AlphaGo能够经过学习一个评价函数来完成这一点，该函数能够在任何给定时辰描画系统的“分数”，而不是尝试手工制动和预编程来执行这一操作。然后，AlphaGo经过数百万次模仿游戏对自己中止了锻炼。这听起来像对立学习是吧？

深度对立学习整装待发，或将改动传统AI格局

AlphaGo的架构

AlphaGo不只仰仗其自身的强大才干成为世界上最好的围棋选手，它还真正控制了游戏及其一切的细微之处和复杂性。这是有可能的，由于它不受人类输入的限制，或是我们（我们往常的认知都是有限的）对问题范畴的了解（例如在讯问，回答和评价问题上）的限制。下一步的目的就是将这些学习措施应用于理想世界中。很难想象AI将如何重塑农业，医疗保健等行业，但这一定会发作的。

生成式对立网络

我所不能构建的是我所不明白的。

——理查德费曼（美国知名物理学家）

上述引述激起了我开端着手GAN研讨的积极性。 GAN将锻炼过程了解为两个网络之间的游戏，并允许对通用数据中止对立学习。

深度对立学习整装待发，或将改动传统AI格局

GAN的基本概念：GANs是经过让两个网络相互对立的方式构成生成式模型

深度对立学习整装待发，或将改动传统AI格局

为了建模真实的数据散布，生成器学习如何生成实践的数据样本，而鉴别器学习如何肯定这些样本能否是真实的。怀着对“了解某事的最终表白能够重现它”的信仰，我们觉得我们的目的似乎是值得的。假如我们能够胜利地将我们的GAN锻炼到均衡状态（不论多么圆满的鉴别器也无法将生成的样本与实践样原形分辨），我们应该能够将这种取得的对数据的了解应用于简直任何具有最佳性能的任务中。

问题犹存

GAN也是存在一些缺陷的，它难以优化，锻炼不稳定。因而必须认真设计网络架构，必须认真维护生成器和鉴别器之间的均衡，以便中止锻炼。在这种方式上下，dropping在GAN中是很典型的（生成器仅学习真实散布中的一小部分），并且由于近乎无意义的学习曲线，是难以对它们中止调试的。

固然如此，GAN曾经取得了最先进的成果，但实践应用却遭到这些问题的限制。

处置计划

锻炼GAN以最小化生成的数据与真实的数据散布之间的距离。最初，Jensen-Shannon分歧被用作这种距离度量。但是，Wasserstein GAN（wGAN）提供了普遍的理论见解，并以阅历证明，最小化EMD距离（Earth Mover's Distance）合理和有效的近似，理论上是处置GAN的主要问题（详见上述描画）的较好的优化措施。为了使EMD近似有效，wGAN对评论者（以前称为Wasserstein的鉴别器）施加了权重限制，招致了一些锻炼失败。

对Wasserstein GAN中止的改进锻炼，使得十分稳定的GAN锻炼能够惩罚评论者的关于梯度的规范，由于他们是基于输入而不是限制权重。这个“梯度惩罚”只是被简单地添加到上面描画的Wasserstein距离的总损失中去。

"""

wGAN implemented on top of tensorflow as described in: [Wasserstein GAN](https://arxiv.org/pdf/1701.07875.pdf)

with improvements as described in: [Improved Training of Wasserstein GANs](https://arxiv.org/pdf/1704.00028.pdf).

"""

importtensorflow astf

# define earth mover distance (wasserstein loss)