OpenAI的DALL


OpenAI的DALL

文章插图

DALL-E可以基于其属性的描述来创建图像,例如“五边形绿色时钟”或“桌上摆着一副眼镜” 。 在后一个示例中,它将饮料杯和眼镜放在成功的桌上 。
它还可以绘制并组合多个对象,并提供不同的视角,包括切面和对象内部 。 与过去的文本到图像程序不同,它甚至可以推断出描述中未提及但对于逼真的图像而言是必需的细节 。 例如,使用“冬天坐在田野上的狐狸的画”的描述,代理商可以确定是否需要阴影 。
“不同于必须明确且完整地指定其输入的3D渲染引擎,当标题暗示图像必须包含未明确说明的某些细节时,DALL·E通常能够'填入空白',”根据OpenAI团队的说法 。
【OpenAI的DALL】
OpenAI的DALL

文章插图

OpenAI还利用一种称为“零击推理”的功能 。 这使代理无需任何额外培训即可从描述和提示生成答案,并且已被用于翻译和其他杂务 。 这次,研究人员将其应用于视觉领域,以执行图像到图像和文本到图像的翻译 。 在一个示例中,它能够从草图生成猫的图像,提示是“顶部和底部的草图完全相同 。 ”
该系统还有许多其他才能,例如了解电话和其他对象如何随时间变化,掌握地理事实和地标以及以摄影,插图甚至剪贴画风格创建图像 。
目前,DALL-E还很有限 。 有时,它可以提供您从描述中获得的期望,而其他时候,您只会得到一些奇怪或破烂的图像 。 与其他AI系统一样,由于系统的黑匣子性质,即使是研究人员本身也无法确切了解它如何生成某些图像 。
尽管如此,如果进一步发展,DALL-E具有巨大的潜力颠覆诸如摄影和插画等领域,并伴随着一切好与坏 。 “将来,我们计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对某些工作流程和职业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战,”团队写道 。 要自己玩DALL-E,请查看OpenAI的博客 。

    相关经验推荐