人工智能继续完善虚假内容领域,几年前,初创公司 OpenAI 的 GPT-3 自然语言处理程序已经掌握了虚假文本。
另外:最好的 AI 艺术生成器:DALL-E 2 和其他有趣的替代品可供尝试
现在,由于 Tero Karras 和 Nvidia 的同事在 2019 年推出的 Nvidia 的 StyleGAN 等程序,图像已经实现了大量的伪造,今年夏天,随着 OpenAI 宣布了一个新的图像伪造程序 DALL•E 2,图像得到了推动, 它以 2021 年 1 月发布的第一个 DALL•E 为基础。它可以将您键入的短语转换为图像,并通过多种方式塑造输出图像。
本周,OpenAI 删除了等待名单; 任何人现在都可以去该站点试用 DALL•E 2,只要他们愿意使用电子邮件地址和电话号码在 OpenAI 的网站上创建一个帐户。
与其前身一样,DALL•E 2 的强项是根据用户在网页字段中键入的文本创建图像。 输入短语“一名宇航员以逼真的风格骑马”,图像将大致以这种形式出现:一个穿着宇航员制服的人物侧面的现实主义渲染,骑在一匹马上,似乎是一个图像 宇宙。
OpenAI 科学家 Aditya Ramesh 及其同事在 arXiv 预印服务器上发布的一篇研究论文“使用 CLIP 潜伏的分层文本条件图像生成”中描述了这项工作。
DALL•E 2 是所谓的对比编码器-解码器。 它是通过将图像及其说明压缩成一种抽象的组合表示,然后将它们解压缩来构建的。 该培训开发了程序关联文本和图像的能力。
Ramesh 及其同事的主要观点是,压缩/解压缩发生的方式允许人们做的不仅仅是在文本和图像之间进行简单的转换,它允许人们使用短语来塑造图像的各个方面,例如添加术语“真实感”, 这会产生具有某种圆滑现实主义的东西。
虽然图像仍然有些粗糙,但你可以看到 DALL•E 2 有潜力取代很多商业插图甚至股票摄影。 通过键入短语和样式(例如“照片”),您可以输出各种可能适合为文章配图的图像。
您可以通过尝试亲眼看到。 大多数立即跃入脑海的事情都是有趣的组合。 例如,“一只蓝鲸和一只小猫在海滩上交朋友,数字艺术”产生了下面可爱的贺卡风格输出。
但也有可能获得一些适合库存摄影环境的更平庸的图像。 输入短语“一位 ZDNET 特约撰稿人在他们自己的文章中看到技术的未来在太空中盘旋的山坡上”会产生一种接近文章的科幻形象。
使用短语“非常焦虑的计算机用户盯着他们的计算机显示器并看到 Windows 补丁警报的照片”产生了一组通常令人恐惧的计算机用户的令人愉快的图像。
可以用其他词来放大该短语以获得更具体的结果,例如“非常焦虑的计算机用户在他们的办公桌前盯着他们的计算机显示器并看到 Windows 补丁警报的照片”。
一旦开始专注于图库摄影,您会发现可以想出很多场景来制作图像。 例如,“一个戴眼镜的人在会议室的会议桌上向几个人发表意见的照片”产生了一个很好的选择,乍一看就像真实的办公场景。
同样,您可以用几句话来获得更具体、不断变化的场景属性,例如“照片中一位戴眼镜的人站在会议室的黑板旁边向同事解释某事”。
如您所见,DALL•E 2 输出中的面部特征等内容通常会退化。
通过应用艺术家或艺术媒体或风格的术语,可以将同一图像从库存摄影领域转移到插图领域,如短语“弗朗西斯·培根在会议室里画的一群人和一个人” 戴着眼镜站在黑板旁边解释着什么。”
一旦你创建了一个帐户,OpenAI 就会给你 50 个“积分”,这些是对系统的免费请求,其中输入的每个短语都算作一个请求。 用完 50 个积分后,您可以等待一个月并获得接下来的 15 个免费积分,也可以购买积分。 点数以 115 个一包的价格出售,价格为 15 美元,或每个点数 13 美分。
有可能对程序进行处理。 有些请求可能过多地混合了真实和想象,无法以令人信服的方式呈现。 例如,请求“披着蓝色皮毛的老鼠占领时代广场”产生了一个不错的第一次尝试,但毛皮元素使图片显得草率、参差不齐,这实际上行不通。
其他请求可能会因为选择单个词而使 DALL•E 2 出错。
请求“一袋钱坐在门廊的草坪椅上,俯瞰日落”产生了完全奇怪的、不相关的图像,例如脚趾甲的特写,以及似乎是一些花朵插在地毯里的模棱两可的图像。
可能是程序找不到合适的元素组合,当与无生命的物体(麻袋)组合时,似乎是一个主动动词,坐着。
总的来说,该计划似乎与地点方面存在冲突,例如“站在画架前”。
不是描述而是问题或感叹词的短语似乎将系统引导到随机模式。 例如,“DALL•E 2 知道它自己的名字吗?” 是产生多个花朵图像的表达式。 这可能是一种诗意的回应,但感觉更像是对提示的拒绝。
OpenAI 设置了一些护栏,在发布的内容政策中有详细说明,它们将用于自动消除任何禁止尝试。 例如,不会生成键入“微软联合创始人比尔·盖茨在一间家具破烂的矮胖公寓里抽雪茄”。 相反,会显示一条错误消息,指出该请求违反了政策并将您定向到政策页面。 这大概是违反了“不得制作公众人物形象”的规定。
同样的请求,用 ZDNET 撰稿人、不太知名的公众人物 Tiernan Ray 代替,生成了一系列有趣的图像,这些图像不是 Tiernan Ray。
更重要的是,受版权保护的文本似乎受到保护,不会被大规模侵犯。 短语“一群人在麦当劳前闲逛”产生了一个足够合适的场景,但提供的每个结果都对“麦当劳”进行了一些细微的修改,使其实际上不是那个词。
接下来会发生什么? 文本到图像的基本方法的工作正在许多方面进行。 一种是给程序增加更多的词汇复杂性。 例如,Chitwan Saharia 和 Google Brain 的团队在 5 月份发表了他们关于“Imagen”的工作,他们说该程序具有“前所未有的照片级真实感”。 诀窍是使用更大的语言材料语料库来训练网络。
并且正在做一些工作来扩大程序可以制作的事物的复杂性。 例如,谷歌科学家 Wenhu Chen 及其同事本月创建了一个扩展 Sahari 及其团队 Imagen 的程序,称为“Re-imagen”,它结合了压缩文本和图像的基本思想以及第三个元素,即搜索结果。
通过添加他们所谓的“检索”,该程序不仅可以找到单词和图像的“语义”组合,还可以在互联网搜索结果中寻找可以微调输出的组合。 他们声称在处理稀有、晦涩的短语(例如“Picarones is served with wine”,指的是秘鲁红薯甜点)时,结果远远优于 Imagen 和 DALL•E 2。