夏一数石发布者:奥飞斯量子比特| QbitAI
太棒了,难以置信,令人印象深刻,我是它的忠实粉丝.
大周末期间,各路人工智能和机器学习大咖罕见地在Twitter 上对目前正在接受双盲评审的ICLR 2019 论文(BigGAN)进行了点赞和赞扬。
因为效果实在是太惊人了!人们!震惊!震惊!
DeepMind 星际项目总监Oriol Vinyals 表示,这篇论文产生了有史以来最好的GAN 生成图像。陈天琪还表示,他对这项研究及其后续研究非常感兴趣。
效果如何?
我们先看一下数字。在分辨率为128128的ImageNet上训练后,BigGAN的Inception Score(IS)得分为166.3,比之前最好成绩52.52高出100多分,更接近真实图像的233分。 Frechet Inception Distance (FID) 分数也从之前的18.65 优化至9.6。
让我们再看一下这个例子。你能分辨出下面哪些照片是人工智能生成的假照片,哪些是真实的吗?
还有一件事。以下8 张照片哪张是假的?
将公布答案。以上12 张照片均为生成的假照片。我明白为什么每个人都感到惊讶并立即称赞它。
512512轻松搞定
事实上,这些例子背后还有更有力的道理。上面八张图片的分辨率是512x512。这是两张大照片,大家可以一起看一下。
辨别谎言还是很难还是这么神奇?
这是正确的。除了处理128128的小图像之外,BigGAN还可以直接在256256和512512 ImageNet数据上进行训练,以生成更有说服力的样本。
上面显示的512x512 样品的IS 分数为241.4 分,FID 分数为10.9,而256x256 样品的IS 分数为233.0 分,FID 分数为9.3 分。
以下是BigGAN 在不同分辨率下的完整得分:
原理
为什么“大”GAN 如此强大?
BigGAN的“巨大”不仅在于模型参数数量众多,而且是自GAN以来学习规模最大的。参数比之前版本大2-4倍,批量大小比之前版本大8倍。
大训练规模对于图像生成任务非常有用。
为了进行大规模训练,作者研究了克服这种大规模训练带来的独特不稳定性的方法。
为了适应大规模训练,他们对GAN 架构做了两个简单的改变。 BigGAN 的生成器和判别器的架构如下图所示。
BigGAN采用ResNet架构。这与Ken Miyato 及其同事去年在ICLR 2017 上宣布的带有投影判别器的cGAN 类似,但对判别器的通道类型进行了一些更改。每个模块中滤波器的数量与输出滤波器的数量相同。
生成器G 使用单个共享类嵌入。它具有线性投影属性,可以为BatchNorm 层中的每个样本生成增益和偏差。
这是BigGAN 的生成器架构。
发生器的其余模块如下所示。
此外,我们发现将正交正则化应用于生成器非常适合简单的“截断技术”,并提供对样本保真度和多样性之间的潜在空间权衡的精细控制。
樱桃时刻
体验BigGAN 的力量。
其中一些令人震惊,因为它们“相似,非常相似”。
一位意大利男子表示,BigGAN生成的食物获得了满分。看起来很好吃。
我的一部分也对他的“惊人的想象力”印象深刻。
例如,论文中发表的“网球狗”失败示例如下:
但是很多人都说这只网球狗很棒。可爱的!的!
还有这头奇妙的大象。
当然,BigGAN 也会生成特别糟糕的图像,例如有人的场景。
让我们看一些例子。
此人是骑自行车的人吗?
这是一个穿着貂皮的男人吗?
此人是女性吗?
人类似乎是最难理解的……
最后,陈天琪说,这项研究在分类条件下生成图像,我很感兴趣它捕获了多少分布以及无条件版本会是什么样子。
论文地址
对BigGAN论文感兴趣的朋友,请直接访问以下地址:
https://openreview.net/pdf?id=B1xsqj09Fm
这是一篇很好的论文,非常值得一读,其中包括“NG Lens Collection”附录中的链接,解释了研究过程中遇到的各种陷阱。谷歌AI 研究员James Bradbury 在Twitter 上特别表示,他非常喜欢这一部分。
另一方面,如果你想挑选,作者还发布了生成图像的图集。该画廊位于Google 云端硬盘上。
代码呢?很多人都在找,但是好像还没有发布。我在GitHub上似乎找不到任何相关内容。
这篇论文很受欢迎,以至于有些人感到担忧。毕竟论文还在双盲审稿中,担心这么大惊小怪会影响审稿结果。
而这篇论文的作者是谁,目前还不清楚。
- 就这样-
诚信招聘
量子比特现招聘一名编辑/记者,驻地北京中关村。我们正在寻找有才华和热情的学生加入我们!详情请在量子位公众号(QbitAI)对话界面回复“招聘”。
量子位QbitAI·今日头条署名作者
追踪AI技术和产品新进展
版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。