文章图片
上周 , 谷歌高级深度思维神经网络背后的团队公开发布了一项新功能 , 称为Transframer , 这项功能允许人工智能从单个图像输入中生成一段30秒的视频 。 乍一看 , 这是一个华而不实的小把戏 , 但其实际的含义远远大于一个有趣的.GIF文件 。
Transframer可以从一个图像中想象周围的环境
Transframer是一个通用生成框架 , 可以在概率设置中处理许多图像和视频任务 。 新的研究表明 , 它在视频预测和视图合成方面表现出色 , 可以从单个图像生成30秒的视频 。 谷歌高级深度思维神经网络团队透漏称 。
google
“Transframer在各种视频生成基准上都是最先进的 , 并且……可以从单个图像生成连贯的30秒视频 , 而无需任何明确的几何信息 , ”DeepMind研究团队解释道 。 基本上 , Transframer只需要一张照片 , 然后分析和识别照片的框架 , 即桌子、走廊或街道等线索 。 在使用这些“背景图像”预测受试者的周围环境后 , 它从各个角度设想(并随后显示)该目标的外观 。 DeepMind的团队用椅子、笔记本电脑、一杯水 , 甚至一本GRE教科书等目标来说明这个过程 。
谷歌的DeepMind AI可以将单个图像“转换”为视频
“给定一组具有相关注释(时间戳、摄像机视点等)的背景图像和一个查询注释 , 任务是预测目标图像上的概率分布 , ”该团队继续说道 。 该框架支持一系列视觉预测任务 , 包括视频建模、新颖视图合成和多任务视觉 。
AI
正如未来主义者所指出的 , Transframer有朝一日可以通过利用机器学习来构建数字环境 , 而不是依赖更耗时的渲染方法 , 为视频游戏行业提供一条全新的途径 。 随着技术的进步 , DeepMind的Transframer培训可以为艺术、科学分析和人工智能的进一步发展开辟全新的途径 。
人工智能
此外 , 一位Twitter用户设想在Transframer程序的基础上利用OpenAI的DALL-E图片来创建堆叠的人工智能作品 , 就好像这些图像无法变得更超现实一样 。 OpenAI的DALL-E技术就是通过将文字描述转换为图片的技术 , 通过这个程序 , 每个人都可以通过描述原创图片 , 更多DALL-E的介绍可以看我前面的文章人均艺术家!文本转换为图像 , DALL-E程序创造新世界!TikTok日前也添加了这项功能 , 可以看我前几天的文章了解更多TikTok提供了一个基本的文本到图像的AI生成器 , 压力来到了抖音!? 。
OpenAI
【deepmind|单个图像“转换”为视频!谷歌的DeepMind人工智能团队发布新功能!】今天 , 关于谷歌人工智能团队发布的图像转视频的新功能的介绍就到这里了 , 更多科技资讯请关注科技译站! , 我是蟹家之宝树 , 欢迎大家评论区留言讨论!
相关经验推荐
- 图像处理|当然,如果仔细看的话,X60 Pro在图像处理方面还有待改进
- 图像传感器|插拔如此简单——航嘉SSH608单手智控插座
- 图像处理|正式取代WIFI 6,WIFI 7已经完成技术演示,比上代快3倍
- 小米12|小米 12S Ultra 的图像传感器没有「一英寸」大,小米虚标了吗?
- deepmind|SA权威发布,全球前五品牌最新出炉
- deepmind|三星S23 Ultra曝光:屏下3D结构光+200倍,科技与美的碰撞
- 格力电器|什么是 AVIF 图像格式?
- 索尼|索尼将引入全新图像传感器技术,目标保持60%全球市场份额
- 图像传感器|安卓同质化太明显,群体发展受阻!苹果iPhone销量爆发,已一骑绝尘!
- |电脑显示屏(图像)变小了,不知道如何恢复?文章中告诉你办法