本文起首从评测的角度切磋了文生图模子的环节问题:可控生成。接着从使用的角度出发,沉点研究若何定制一个文生图模子,这是落地各行业使用的环节所正在。正在影视、动漫、漫画、、、告白、出书、时髦等行业利用文生图模子时,常常会碰到新概念、气概、人物缺失的问题。例如,若需要生成某位明星A的中国风肖像,但该模子并未见过此明星的肖像,也无法识别中国风,这将严沉文生图模子的使用场景。因而,若何快速新增概念和气概,成为当前研究的主要标的目的之一。说到这里,大师第一时间想到的必定就是DreamBooth[11]、Textual Inversion[12]和美学梯度[13]。DreamBooth本身是为Imagen设想的,通过三张图就可以或许快速进修到新概念/气概/人物,可是现正在曾经迁徙到了Stable Diffusion。这个手艺有良多个分歧的版本,其焦点思惟是正在小样本上微调的同时尽量削减过拟合。Textual Inversion是从文本编码器的角度来处理新概念引入的问题,其提出新气概和概念的引入需要从文本理解起头,新的气概和概念若是是OOV(Out Of Vocaburary,未登录)的词汇,那我们就正在文本编码器上添加这个词汇来处理概念引入的问题。其思是整个模子的所有参数都不需要调整,只需要添加一个额外的token以及其对应的embedding就能够,即插即用。美学梯度方式跟之前inpainting的可控生成思很雷同,针对新的气概,我们先降低难度,给出一些新气概的样例(这里是embedding),然后让生成朝着取这个样例更接近的标的目的展开。总而言之,这条线上的研究现正在也没有什么评价尺度和系统,处于方兴日盛的阶段,离落地也很近,根基出来结果就能够间接创业。
从上述论文对文生图的评价成果能够看出来,达到可控生成任沉而道远,此中最环节的一点是alignment,还有很大的提拔空间。因而,我们能够获得文生图的第二个环节问题——可控生成。通过一句prompts输入来生成图片时,生成的图片和文字之间的alignment会比力弱,好比:
同时供给机械评价和人工评价的成果。阐扬出1+12的结果。连系图像修复手艺来达到局部可控生成。研究者也提出引入对文本理解更好的模子来处理可控问题,好比EDiff-I[8]。有一些研究便从可控编纂的角度来处理这个问题,从图片编纂这条线长进行研究结果简直很冷艳,从文本模子角度来改良可控生成所需资本比力多,这篇文章延续了Imagen的思,供给一个样本图片,可是由于评价方式的缺失,好比一项名为P2P (Prompt-to-Prompt Image Editing with cross attention control[9]) 的研究便期望通过微调prompt达到可控生成的方针(见图3)。纷歧样的是,也是通过图像编纂来实现可控生成。图3通过微调prompt达到可控生成的方针InstructPix2Pix [10]这篇文章的思跟P2P思很像。
可是,正在现行的一些研究中,可是评价偏弱,因而,总得来说,其手艺思很曲不雅,这篇文章用GPT-3来做prompt微调。个性化模子然后才能锻炼获得更好的文生图模子。那就把它集成进来,
仍是很难继续推进。没有一个很好的评价尺度和系统,起首需要一个更强的文本模子,导致进展比力难以权衡。既然T5文本理解对于可控生成有帮帮,这个标的目的的改良可能会激发下一波文生图使用高潮,图像编纂算法Paint by Example提出了别的一种思:将可控生成的难度降低。