
生成模型,即可以生成图像或文本的人工神经网络,近年来已经变得越来越先进。这些模型也有利于创建带注释的图像来训练计算机视觉算法,这些算法旨在对图像或包含在其中的对象进行分类。
虽然许多生成模型,特别是生成对抗网络(gan),可以生成与摄像机捕获的图像相似的合成图像,但可靠地控制它们生成的图像的内容被证明是具有挑战性的。在许多情况下,gan生成的图像不能满足用户的确切要求,这限制了它们在各种应用中的使用。
首尔国立科学技术大学的研究人员最近推出了一种新的图像生成框架,旨在包含用户希望生成的图像包含的内容。该框架是在arXiv预印本服务器上发表的一篇论文中介绍的,它允许用户对图像生成过程施加更大的控制,从而生成与他们设想的图像更一致的图像。
“随着生成模型的引入,图像生成已经取得了显著的进步,”Giang H. Le、Anh Q. Nguyen和研究人员在他们的论文中写道。
“然而,由于其基本训练目标,精确控制生成图像中的内容仍然是一项具有挑战性的任务。本文通过提出一种新的图像生成框架来解决这一挑战,该框架明确设计用于将所需内容合并到输出图像中。
与许多现有的图像生成模型相比,Le、Nguyen和他们的同事开发的框架可以输入真实世界的图像,然后用它来指导图像生成过程。因此,它生成的合成图像的内容与参考图像的内容非常相似,即使图像本身不同。
“该框架利用了先进的编码技术,集成了称为内容融合和频率编码模块的子网,”Le, Nguyen和他们的同事写道。
“频率编码模块首先通过专注于选定的频率分量来捕获参考图像的特征和结构。随后,内容融合模块生成一个内容引导向量,该向量封装了所需的内容功能。”
因此,研究人员开发的框架有两个不同的组成部分。第一个是编码器,该模块从提供给模型的参考图像中提取与内容相关的特征。第二个模块是内容融合模块,该模块根据参考图像提取的内容为新生成的图像生成向量。
“在图像生成过程中,来自真实图像的内容引导向量与投影噪声向量融合,”作者写道。“这确保了生成的图像不仅与指导图像保持一致的内容,而且还表现出不同的风格变化。”
Le, Nguyen和他们的同事在一系列测试中评估了他们的框架的性能,并将其生成的图像与传统的基于gan的模型生成的图像进行了比较。他们用来训练模型并作为参考指导图像生成过程的图像来自各种数据集,包括Flickr-Faces-High Quality, Animal Faces High Quality和Large-scale Scene Understanding数据集。
这些初步测试的结果非常有希望,因为与传统的基于gan的模型创建的图像相比,新框架生成的合成图像在内容方面更好地匹配参考图像。平均而言,框架生成的图像保留了85%的参考图像的属性。
这项最近的研究可以为图像生成模型的开发提供信息,这些模型可以创建更符合用户期望的图像。这些模型可用于编译精心定制的数据集,以训练图像分类算法,但也可以集成到设计师和其他创意专业人员的人工智能平台中。











