温馨提示:这篇文章已超过544天没有更新,请注意相关的内容是否还可用!
OpenAI出品的绘画工具
我们训练了一个名为 DALL·E 从文本标题创建图像,用于以自然语言表达的各种概念。
达尔·E 是 12 亿个参数版本的GPT-3经过训练,可以使用文本-图像对的数据集从文本描述生成图像。我们发现它具有多种功能,包括创建动物和物体的拟人化版本,以合理的方式组合不相关的概念,渲染文本以及对现有图像应用转换。
GPT-3表明,语言可以用来指示大型神经网络执行各种文本生成任务。图片 GPT表明相同类型的神经网络也可用于生成高保真度的图像。我们扩展了这些发现,表明通过语言操纵视觉概念现在是可以实现的。
概述
像GPT-3一样,达尔·E 是一个转换器语言模型。它将文本和图像作为包含多达 1280 个令牌的单个数据流接收,并使用最大可能性进行训练,以一个接一个地生成所有令牌。一个[一]
标记是离散词汇表中的任何符号;对于人类来说,每个英文字母都是26个字母表中的令牌。达尔·E 的词汇表具有文本和图像概念的标记。具体而言,每个图像标题最多使用 256 个词汇表大小为 16384 的 BPE 编码标记表示,图像使用 1024 个词汇表大小为 8192 的标记表示。
在训练过程中,图像被预处理为256x256分辨率。与VQVAE类似,1,2每个图像都使用离散VAE压缩到一个32x32离散潜在代码网格3,4我们使用持续放松进行预训练。5,6我们发现,使用放宽的训练消除了对显式代码本、EMA 损失或死代码复兴等技巧的需求,并且可以扩展到较大的词汇量。
此培训程序允许 DALL·E 不仅可以从头开始生成图像,还可以以与文本提示一致的方式重新生成延伸到右下角的现有图像的任何矩形区域。
我们认识到,涉及生成模型的工作有可能产生重大、广泛的社会影响。未来,我们计划分析像DALL·E涉及社会问题,例如对某些工作流程和职业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。
能力
我们发现,达尔·E能够为探索语言构成结构的各种句子创建合理的图像。我们将在下一节中使用一系列交互式视觉效果来说明这一点。视觉对象中每个标题显示的示例是通过重新排名后从 32 个标题中获取前 512 个获得的夹,但我们不使用任何手动挑选,除了出现在外面的缩略图和独立图像。B[二]
更多详情见后面的部分.
控制属性
我们测试达尔·E 修改对象多个属性的能力,以及它出现的次数。
商务微信:GPTHHH(备明来意)
还没有评论,来说两句吧...