你的位置:欧美黄瓜视频在线观看_呦男呦女视频精品导航_少妇苏霞白洁刺激A片_美女被强奷到高潮免费_强奷乱码中文字幕在线_久久青青草原一区二区_变态乱另类仑小说专区 > 日本很黄的免费A片 >


久久国产偷任你爽任你关于 CLIP 指引(CLIP guidance)

发布日期:2022-09-23 06:26    点击次数:105


GaySeX双巨巴久久国产偷任你爽任你

  

模子的参数领域并不需要那么大。

从岁首 OpenAI 刷屏社区的 DALL-E 到英伟达生成传神照相的 GauGAN2,文本生成图像可谓是本年大火的一个考虑标的。咫尺 OpenAI 又有了新的阐明——35 亿参数的新模子 GLIDE。

如下图 1 所示,GLIDE 频繁会生成传神的暗影和反射,以及高质地的纹理。此外,该模子还不祥组合多个见识(举例柯基犬、领结和诞辰帽),同期将属性(举例情态)绑定到这些对象。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

除了从文本生成图像,GLIDE 还有图像剪辑功能——使用文本 prompt 修改现存图像,在必要时插入新对象、暗影和反射,如下图 2 所示。举例,在草坪上添加斑马:

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

如下图 3 所示,GLIDE 的零样本生成和缔造复杂场景的才调也很强。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

GLIDE 还不祥将草图调度为传神的图像剪辑。举例下图中「一只戴着领结和诞辰帽的柯基犬」从涂鸦草图调度成了传神的图像。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

上述功能是如何已矣的呢?在新模子 GLIDE 中,OpenAI 将指引扩散(guided diffusion)诈骗于文本生成图像的问题。最初该考虑锤炼了一个 35 亿参数的扩散模子,使用文本编码器以当然话语描摹为要求,然后比拟了两种指引扩散模子至文本 prompt 的法式:CLIP 指引和无分类器指引。通过人工和自动评估,该考虑发现无分类器指引不祥产生更高质地的图像。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E 论文地址:https://arxiv.org/pdf/2112.10741.pdf 时势地址:https://github.com/openai/glide-text2im

该考虑发现使用无分类器指引模子生成的样本既传神又反应了平庸的执行常识。人类评估的截至标明,GLIDE 的生成截至优于 DALL-E。

此外,值得预防的是,DALL-E 的参数目是 120 亿,而 GLIDE 仅有 35 亿参数,却已矣了更优的性能。咱们来具体看一下 GLIDE 的模子细节。

具有 35 亿参数的文本要求扩散模子:GLIDE

OpenAI 以 64 × 64 的图像分辨率锤炼了一个具有 35 亿参数的文本要求扩散模子(text-conditional diffusion model ),以及一个具有 15 亿参数的文本要求上采样扩散模子(text-conditional upsampling diffusion model),该模子将图像分辨率进步到 256 × 256。关于 CLIP 指引(CLIP guidance),漂亮人妻被迫肉体还债OpenAI 还锤炼了一个噪声感知 64 × 64 ViT-L CLIP 模子。

文本要求扩散模子

OpenAI 接管 Dhariwal & Nichol (2021) 提议的 ADM 模子架构,但使用文本要求信息对其进行了推论。关于每个噪声图像 x_t 和相应的文本证明(text caption),模子对 p(xt−1|xt, caption) 进行展望。为了以文本为要求,OpenAI 最初将文本编码为 K 个 token 序列,然后将这些 token 输入到 Transformer 模子中(Vaswani 等,2017)。这个 transformer 的输出有两种用途:

最初,使用最终的 token 镶嵌代替 ADM 模子中的类镶嵌; 其次,临了一层的 token 镶嵌(K 个特征向量序列)诀别投影到 ADM 模子中每个预防力层,然后通顺到每一层的预防力高下文。

OpenAI 接管与 DALL-E 透顶调换的数据集锤炼模子,况且使用与 Dhariwal & Nichol (2021) 提议的 ImageNet 64 × 64 模子调换的模子架构,模子通道为 512 ,从而为模子的视觉部分生成约莫 23 亿个参数。关于文本编码 Transformer,OpenAI 使用 24 个残差块,人妻无码精品久久久产生约莫 12 亿个参数。

此外,OpenAI 还锤炼了一个具有 15 亿参数的上采样扩散模子,图像分辨率从 64 × 64 增多到 256 × 256 。该模子不异以文本为要求,但使用宽度为 1024 较小的文本编码器(而不是 2048 )。

无分类器指引的微调

模子启动锤炼完成之后,不错微调基本模子以撑持无要求图像生成。锤炼历程与预锤炼透顶调换,仅仅 20% 的文本 token 序列被替换为空序列。通过这种形状,模子保留了生成文本要求输出的才调,同期也不错无要求地生成图像。

图像缔造与剪辑

已往的图像缔造职责存在一个缺陷,即模子在采样历程中无法看到总共高下文信息。为了获取更好的生成后果,OpenAI 对模子进行了微调:微调时,当场擦除锤炼样本一些区域,其余部分与掩码通道一路手脚附加要求信息输入模子。OpenAI 对模子架构进行了修改,增多了四个罕见的输入通道:第二组 RGB 通道和一个掩码通道。在微调之前,OpenAI 将这些新通道的相应输入权重启动化为零。关于上采样模子,OpenAI 提供了美满的低分辨率图像,但关于未掩码的区域提供高分辨率图像。

CLIP 指引扩散

鉴于分类器指引和 CLIP 指引的相似性,诈骗 CLIP 来进步文本要求扩散模子的生成质地似乎很当然。为了更好地匹配 Dhariwal & Nichol (2021) 的分类器指引时间,OpenAI 使用图像编码器锤炼噪声感知 CLIP 模子,该图像编码器接受噪声图像,以 64 × 64 的分辨率锤炼模子。

实验截至

该考虑将 GLIDE 与之前的 SOTA 模子进行了定性比拟,截至如下图 5 所示。GLIDE 生成了更传神的图像,况且无需 CLIP 重排序或挑选。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E 定量截至

该考虑最初通过检察图像质地保真度衡量的帕累托前沿来评估无分类器指引和 CLIP 指引之间的各异。下图 6 在 64 × 64 分辨率下评估了这两种法式的零样本 MS-COCO 生成。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

该考虑建设的人类评估实验如下:

让人们明察两个 256 × 256 的图像,并按如下两条尺度选出一个更优的图像:要么更好地匹配给定的标题,要么看起来更传神。评估截至如下图 7 所示。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

并将人类评估的截至和下表 1 的截至进行比拟,然后该考虑发现人类和 CLIP 指引给出的分数不一致,因此无分类器指引不祥产生与人类明白一致的更高质地生成截至。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

此外,考虑者还将 GLIDE 与其他文本生成图像模子进行了比拟,截至如下表 2 所示。GLIDE 在 MS-COCO 上获取有竞争力的 FID。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

临了,该考虑使用上述人类评估实验建设比拟了 GLIDE 和 DALL-E ,截至如下表 3 所示。预防到 GLIDE 的锤炼使用与 DALL-E 大致调换的锤炼谋略,但模子要小得多(35 亿参数 VS120 亿参数),所需采样蔓延更少,况且不需要 CLIP 重排序。

收缩领域,OpenAI文本生成图像新模子GLIDE用35亿参数比美DALL-E

 

 



    热点资讯

    相关资讯