沈向洋:“一言胜千图”时代到来,AIGC将发生颠覆式变化( 二 )


在AIGC的探索过程中有一个重要的思路转换:不是用AI理解内容,而是用AI来直接生成内容 。“原来的技术趋势,如卷积神经网络从输入基本图像到输出我们想要的结果,过程就是对原始输入有越来越抽象的理解 。而当下的生成 , 实际上是一个反向的过程——从一张完全模糊的图像开始想象,最终呈现清晰的图像 。”张家兴对澎湃科技解答道,这个过程大概从2015年左右开始 , 尝试了六七年的时间后,终于现在有一些模型上的进步,如Diffusion模型,于是才有了这样一个大的突破 。
Diffusion模型通过定义一个不断加噪声的前向过程来将图片逐步变为高斯噪声,再通过定义一个逆向过程将高斯噪声逐步去噪变为清晰图片以得到采样 。
Diffusion模型在使用上一个非常大的限制就是采样速度,模型采样需要从纯噪声图片出发,一步一步不断地去噪,最终得到清晰的图片 。据11月发布的最新研究,清华大学计算机系教授朱军带领的TSAIL团队将扩散模型的快速采样算法提升到了极致:无需额外训练,仅需10到25步就可以获得极高质量的采样 , 采样8张图片的时间从原来的8秒钟被缩短至4秒钟 。
除此之外,对于当下存在的问题,张家兴表示,“单从技术角度而言 , AIGC所具备的能力还不够全面,现在只是从文字生成图像,但事实上我们想要的可能更多,比如对已经生成的图像进行交互式编辑 。除此之外,对专业领域如服装设计,那就需要非常特定的模型 。”
“这个故事才刚刚开始 。”张家兴说 。
“中文AIGC时代”
目前在国内,大部分团队主要基于翻译API+英文Stable Diffusion模型进行开发,Stable Diffusion被称为当下最强的AI图像生成器 。然而,由于中英文之间的文化差异,在遇到中文独特的叙事和表达时,这种模型就很难正确匹配图片内容 。
为了解决这个问题,“盖亚计划”近期开源了首个中文Stable Diffusion模型“太乙” 。“我们这个项目的开源也标志着中文AIGC时代的来临 。”沈向洋说 。
“盖亚计划”由IDEA研究院认知计算与自然语言研究中心发起,致力于在预训练大模型时代建设认知智能的基础设施,是国内目前唯一以开源为目的的技术团队 。
为什么如此看重开源?和AIGC本身的技术门槛有关 。
“AIGC一定要依赖于预训练模型,而预训练模型的训练本身就是一个巨大的技术门槛 。因为要想得到一个真正高质量的AI模型,需要聚集大量的算力、数据以及在训练模型方面有经验的人才 。从这一点来说 , 目前可以聚集这样资源的团队并不多 。整个AIGC的预训练模型生产也呈现高成本化的状态 。”张家兴对澎湃科技表示 。
而开源就意味着,下游的所有公司都可以免费使用这个模型完成其产品创新 。“这件事情非常重要 。其实这次国际上为什么AIGC会这样兴起?这跟Stability AI开源了其模型非常相关 。所以我们希望通过开源让整个产业成长 。”张家兴介绍称这是IDEA研究院的一个长期目标 。
张家兴提到的Stability AI在10月宣布获得了1.01亿美元超额融资 , 此轮融资后,Stability AI估值到达10亿美元,成为新晋独角兽 。其资金将用于开发图、文、视频、音频(音乐生成算法和工具Dance Diffusion也已曝光)和3D等多模态开源模型 。
IDEA大会由IDEA研究院创院理事长、美国国家工程院外籍院士、前微软公司全球执行副总裁沈向洋发起 , 致力在粤港澳大湾区搭建一个分享人工智能技术和凝聚数字产业力量的国际化交流平台 , 发布年度科技趋势与创新产品,将前沿对话落实到数字经济时代的实践中 。

相关经验推荐