jvm|AI深度学习专用,用于训练的超大规模数据集,重点是视频

jvm|AI深度学习专用,用于训练的超大规模数据集,重点是视频

在深度学习研究中 , 每个常见的领域都有相应的数据集 , 以便研究者爱好者乃至产业界使用 。 而现在的数据集 , 显然不可能局限于单一表现形式 。 机智客个人觉得 , 正如现在的人工智能研究的方向一样 , 不仅包括NLP文本方面 , 而且还包括图像领域 , 当然还有视频 。 所以现在可供训练的数据集 , 不仅有大量特定领域的文本数据集 , 还有大量的图像 , 或者视频 。
而说起视频这个表现形式 , 则值得说道说道 。 毕竟这货 , 从某种意义上讲 , 简直可以称之为图像的扩充(毕竟视频画面本身就是一帧帧的静态图像)和序列的拓展(毕竟一个完整的视频 , 往往包含各种镜头语言、情节发展等 , 需要遵循一些观感逻辑和顺序) 。 而图像的训练 , 对于很多AI应用研究而言 , 已经是一个非常考验算力的任务了 , 更何况视频乎?因此虽然现在早已进入短视频时代 , 视频数据大爆发 , 可是原生视频未必符合要求 , 毕竟还要加以标注等预处理 , 能够训练的足够的视频数据集依然不多 。

以往的视频数据集 , 比如早期的数据集如MSR-VTT、DiDeMo、EPIC-KITCHENS都是由人类手工标注的视频和文本描述组成 , 没办法 , 不标注的话 , 恐怕只有人和鬼才能看懂视频内容 , AI程序是绝对看不懂的 。 也正因为需要有人工标注 , 所以这简直就是一个吓人的浩瀚工程 , 由于人工造成的成本居高不下 。
再者说了 , 人为的标注 , 依然也只是包含一些简单的描述性的语句 , 这对于数据集复杂性和多样化拓展是一个障碍 , 当然影响到了后续开发模型的泛化性能了 。 而有些通过语音识别(ASR)从而省去人工标注的的视频 , 虽然数据集规模大大增加 , 视频文本语料更为丰富 , 然而却又在质量上打了折扣 。
于是乎 , 来自微软亚洲研究院MSRA 的8位华人出手了 。 此次带来的论文 , 就是为了更好地理解视频和解决相关数据问题 , 它研究了联合视频和语言(joint video and language)的预训练并提出了一个新的数据集HD-VILA-100M(High-resolution and Diversified VIdeo and LAnguage) 。
【jvm|AI深度学习专用,用于训练的超大规模数据集,重点是视频】这个数据集 , 不仅在规模上更大 , 包含了来自300万个视频中的1亿个视频文本对 , 视频时长合计达到了37万个小时 , 而且 , 质量也高 , 这里的质量 , 既克服了以往通过ASR生成的视频字幕无标点符号等问题普遍质量不高的问题 , 又在清晰度上有了提升 , 达到720p的分辨率 。 另外 , 在多样化方面 , 这个数据集涵盖得也是相关广泛 。
不仅仅是数据集 , 研究人员在面对以往没有研究工作在端到端视频语言预训练模型中对时空视频进行联合编码(joint spatio-temporal video representation)的课题上 , 提出了一个新的模型 , 模型的输入是混合图像序列(hybrid image sequence) , 序列中包含少量高分辨率(HR)视频帧和大量的低分辨率(LR)的视频帧来进行多视频学习的任务(multiple video learning task) 。 机智客据了解 , 此次研究人员提出的这样的模型设计 , 不仅能够实现高分辨率时空视频表征的端到端训练 , 并且在模型设计中也解决了HR和LR的视频帧选择以及从混合图像序列中学到时空特征两个主要的问题 。

    相关经验推荐