首页 > 自考资讯 > 自考知识

惊!史上最佳gan现身,超真实ai假照片

头条共创 2024-07-04

夏一数石发布者:奥飞斯量子比特| QbitAI

1538280612061e60c3d4852~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=kJJeeKGQZP1SuTRVon3DcI5AQnY%3D

太棒了,难以置信,令人印象深刻,我是它的忠实粉丝.

大周末期间,各路人工智能和机器学习大咖罕见地在Twitter 上对目前正在接受双盲评审的ICLR 2019 论文(BigGAN)进行了点赞和赞扬。

因为效果实在是太惊人了!人们!震惊!震惊!

DeepMind 星际项目总监Oriol Vinyals 表示,这篇论文产生了有史以来最好的GAN 生成图像。陈天琪还表示,他对这项研究及其后续研究非常感兴趣。

效果如何?

我们先看一下数字。在分辨率为128128的ImageNet上训练后,BigGAN的Inception Score(IS)得分为166.3,比之前最好成绩52.52高出100多分,更接近真实图像的233分。 Frechet Inception Distance (FID) 分数也从之前的18.65 优化至9.6。

让我们再看一下这个例子。你能分辨出下面哪些照片是人工智能生成的假照片,哪些是真实的吗?

15382806121465cd911b33a~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=IwEfz0ufc2QBrT37Tggmr97sonk%3D 还有一件事。以下8 张照片哪张是假的?

1538280612766f298f483a8~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=VOTp9XPkJOiDB5CtDCx7YOlI6EU%3D将公布答案。以上12 张照片均为生成的假照片。我明白为什么每个人都感到惊讶并立即称赞它。

512512轻松搞定

事实上,这些例子背后还有更有力的道理。上面八张图片的分辨率是512x512。这是两张大照片,大家可以一起看一下。

1538280611946db7ed15690~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=9gpIqyfG7eOjpqvV2xJf%2Fvuvnwg%3D

1538280611889d59c29b804~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=TJjGJH%2FvXR%2F1jIcKvhqbP3wQQaM%3D 辨别谎言还是很难还是这么神奇?

这是正确的。除了处理128128的小图像之外,BigGAN还可以直接在256256和512512 ImageNet数据上进行训练,以生成更有说服力的样本。

上面显示的512x512 样品的IS 分数为241.4 分,FID 分数为10.9,而256x256 样品的IS 分数为233.0 分,FID 分数为9.3 分。

以下是BigGAN 在不同分辨率下的完整得分:

15382806117689ffd1212fe~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=veSNV9pf5DfO6zOeyJe2SE29pYI%3D

原理

为什么“大”GAN 如此强大?

BigGAN的“巨大”不仅在于模型参数数量众多,而且是自GAN以来学习规模最大的。参数比之前版本大2-4倍,批量大小比之前版本大8倍。

大训练规模对于图像生成任务非常有用。

为了进行大规模训练,作者研究了克服这种大规模训练带来的独特不稳定性的方法。

为了适应大规模训练,他们对GAN 架构做了两个简单的改变。 BigGAN 的生成器和判别器的架构如下图所示。

1538280612241d54ca13788~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=%2F8bQuNwWn1ZsSBXwOd848I2326I%3DBigGAN采用ResNet架构。这与Ken Miyato 及其同事去年在ICLR 2017 上宣布的带有投影判别器的cGAN 类似,但对判别器的通道类型进行了一些更改。每个模块中滤波器的数量与输出滤波器的数量相同。

生成器G 使用单个共享类嵌入。它具有线性投影属性,可以为BatchNorm 层中的每个样本生成增益和偏差。

这是BigGAN 的生成器架构。

15382806123345aa8223b62~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=eUZsU2n2ci5SZNgzmvfIIgZAIMs%3D 发生器的其余模块如下所示。

此外,我们发现将正交正则化应用于生成器非常适合简单的“截断技术”,并提供对样本保真度和多样性之间的潜在空间权衡的精细控制。

樱桃时刻

体验BigGAN 的力量。

其中一些令人震惊,因为它们“相似,非常相似”。

1538280612787f7303cb239~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=serh6%2B%2BldqEJ7ycVb83ynxwWNrw%3D

1538280612821ba39791d06~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=ebxzPg%2BfRtjkzQFg3bssLYXGLZs%3D

1538280612831f73a97a594~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=WGnjSBr7kbODvBLnZl9IH%2FDnynA%3D 一位意大利男子表示,BigGAN生成的食物获得了满分。看起来很好吃。

我的一部分也对他的“惊人的想象力”印象深刻。

例如,论文中发表的“网球狗”失败示例如下:

15382806132890b42c1ed6c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=b1W2swYN%2B7oeOBpbM2%2BXuR%2BibrY%3D但是很多人都说这只网球狗很棒。可爱的!的!

还有这头奇妙的大象。

153828061430270c03d5bbc~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=H6pyaBAYNghuKtdv9Kt5ZNgtPas%3D当然,BigGAN 也会生成特别糟糕的图像,例如有人的场景。

让我们看一些例子。

此人是骑自行车的人吗?

15382806148098e3e183232~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=6e%2Bck2K0XjwiJnxzC18Pn0%2BzJP8%3D 这是一个穿着貂皮的男人吗?

1538280613188ab9c3502a0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=uUElDu6DgxnsBBVZBPj8Fh%2FM928%3D 此人是女性吗?

15382806132244b547858a6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=VDq%2BdrLz1b5iF9dX4fJrUsweqmI%3D 人类似乎是最难理解的……

最后,陈天琪说,这项研究在分类条件下生成图像,我很感兴趣它捕获了多少分布以及无条件版本会是什么样子。

1538280613390a1ec3c4f1f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=PPNVQN%2BG07YPEo%2F6pBchb87Xa0M%3D

论文地址

对BigGAN论文感兴趣的朋友,请直接访问以下地址:

https://openreview.net/pdf?id=B1xsqj09Fm

15382806137978be41f55ef~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1720705570&x-signature=lPFi4bVeE8Sx6wq1OWwsPPZGI9w%3D 这是一篇很好的论文,非常值得一读,其中包括“NG Lens Collection”附录中的链接,解释了研究过程中遇到的各种陷阱。谷歌AI 研究员James Bradbury 在Twitter 上特别表示,他非常喜欢这一部分。

另一方面,如果你想挑选,作者还发布了生成图像的图集。该画廊位于Google 云端硬盘上。

代码呢?很多人都在找,但是好像还没有发布。我在GitHub上似乎找不到任何相关内容。

这篇论文很受欢迎,以至于有些人感到担忧。毕竟论文还在双盲审稿中,担心这么大惊小怪会影响审稿结果。

而这篇论文的作者是谁,目前还不清楚。

- 就这样-

诚信招聘

量子比特现招聘一名编辑/记者,驻地北京中关村。我们正在寻找有才华和热情的学生加入我们!详情请在量子位公众号(QbitAI)对话界面回复“招聘”。

量子位QbitAI·今日头条署名作者

追踪AI技术和产品新进展

版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。

猜你喜欢