马斯克真是为科研事业奉献太多!最近以色列的科研人员推出一个新的生成模型StyleCLIP,只需要输入文本提示符,就可以获得一个你想要的假图,例如「化妆」就可以获得一个精致的马斯克,或者输入「短发」给马斯克换发型,那输入「女装」岂不是?
马斯克又被网友以科研的名义玩坏了,只需要输入你想要的发型或者肤色的名称,立刻就能获得一个相应发型的马斯克!
例如输入苍白的(Pale),就可以获得一个雪白的马斯克;输入晒黑的(Tanned),又可以获得一个马斯克日光浴限定版。
输入化妆、卷发、直发等等,解锁更多马斯克肖像,不过第三排的发型,在马斯克的脑袋上显得十分违和。
这是一项来自以色列的研究人员的工作StyleCLIP,可以使用基于人工智能的生成对抗性网络对照片进行超逼真的修改,并且只需要让用户输入他们想要的东西的描述即可,无需输入特定的图片。
https://arxiv.org/pdf/2103.17249.pdf
这个模型也会产生一些非常搞笑的结果。例如可以给Facebook 的CEO马克 · 扎克伯格的脸随意修改,例如让他看起来秃顶,戴上眼镜,或者在下巴上扎上山羊胡。
这个「火星人」的脸上似乎也有了一点人类的感觉。
目前代码已经开源,快玩一玩看看自己适合什么样的发型吧!
https://github.com/orpatashnik/StyleCLIP
StyleCLIP
StyleCLIP模型主要由StyleGAN和CLIP模型组成。
StyleGAN可以在不同领域(domain)生成高度真实图像,最近也有大量的工作都集中在理解如何使用StyleGAN的隐空间来处理生成的和真实的图像。
但发现语义上潜在有意义的操作通常需要对多个自由度进行细致的检查,这需要耗费大量的人工操作,或者需要为每个期望的风格创建一个带注释的图像集合。
既然基于注释,那多模态模型CLIP(Contrastive Language-Image Pre-training)的能力是否就可以利用上,来开发一个不需要手动操作的基于文本的StyleGAN图像处理。
例如输入可爱的猫(cute cat),眯眼睛的猫就被放大了眼睛,获取了所有可爱小猫的特征,还可以老虎变狮子等等。
提出三种方法来利用CLIP的语义表达能力:
1、隐优化技术(latent optimization technique)
使用标准的反向传播方法修改给定的潜编码,使得生成的图像和给定的目标文本之间的CLIP-space内距离最小。
2、隐映射(latent mapper)
训练网络将输入的隐编码转换为修改生成图像中文本描述属性的编码。这个映射器使用相同的全局CLIP损失进行训练,从而最小化到目标文本的CLIP-space距离。对于一些剧烈的形状修改,研究人员发现训练这样一个隐映射器可以帮助提高识别结果。
文本引导mapper的架构,在输入"surprise"后,源图像被转换为隐编码w。训练三个单独的映射函数来生成残差(蓝色),这些残差被添加到w中以生成目标代码,从中预训练的样式(绿色)生成图像(右侧),通过CLIP loss进行评估生成效果。
mapper经过训练后,可以操作文本提示t所指示的图像的所需属性,同时保留输入图像的其他视觉属性。
为了保持原始输入图像的视觉属性,还需要在隐空间中最小化操作步骤的L2范数。
文本提示一次不限于单个属性,例如可以同时设置头发属性的四种不同组合,直发/卷发和短发/长发,每种组合都会产生预期的结果,并且任何先前的方法都无法达到这种控制程度。
由于隐映射器上为每个输入图像推断定制的操作步骤,因此检查潜在空间中的步骤方向在不同输入上的变化程度也是很有趣的。
3、全局方向(Global Direction)
通过确定修改哪些维度的隐编码会导致图像空间变化,从而发现GAN隐空间中有意义的变化方向。尽管隐映射器允许快速推理,但研究人员发现,当需要细粒度的操作时,有时会出现不足的映射能力。
此外,对于给定的文本提示,不同操作步骤的方向趋于相似。所以需要一种将文本提示映射到单一、全局的StyleGAN样式空间中的方法,文中提出的方法已被证明比其他隐空间更为有效。
在实验部分,和其他基于文本驱动的图像处理方法如TediGAN相比,输入强指定文本为"Trump", 弱特指"Mohawk", 更常见的文本"without wrinkles"。
特朗普比较复杂,包括多个属性,如金发、眯眼、张嘴、有点肿胀的脸和特朗普的特殊身份,但全局隐方向则能够捕捉到主要的视觉属性,尽管这些视觉特征并非专属于特朗普,并且它也无法感知到特朗普的特定身份。
对于无皱纹(without wrinkle)的文字提示,Global Direction模型可以成功地消除皱纹,同时保持其他属性大部分不受影响,而Mapper模型做不到这点。
可以得出结论,对于复杂和特定属性(尤其是涉及身份的属性),Mapper能够产生更好的生成结果。
但对于更简单和/或更常见的属性,一个全局方向就足够了,同时提供了更多的分离操作。
并且可以看到TediGAN产生的结果在三个实验中都不太理想。
但StyleCLIP也有缺陷,例如依赖于一个预训练的StyleGAN生成器和CLIP模型来实现联合语言视觉embedding,因此无法将图像操纵到某些预训练模型的域外点。
类似地,映射到到CLIP空间中没有图像填充的区域的文本提示也不能期望产生期待的结果。
并且在视觉变化较大的操作是很难实现的,例如,虽然老虎很容易转化为狮子,但将老虎转化为狼的成功率较低。