爱爱姿势视频( 三 )


根据目前的SOTA文献,基于骨架的模型优于基于RGB的模型 。当然,理想情况下,姿势估计模型也应该在sex domain中进行微调,以获得更好的整体姿势估计 。
对于RGB输入流,基于注意力的TimeSformer架构实现了3D RGB模型的最佳结果,推理速度也非常快(~0.53s/7s clips) 。

爱爱姿势视频

文章插图

RGB模式总共有~1.76万个训练片段和~4900个评价樱花片段,并应用了各种数据增强技术,如重新缩放、裁剪、翻转、颜色反转、高斯模糊、弹性变换、仿生变换等 。
基于骨架模型的最佳结果是由基于CNN的PoseC3D架构实现的,模型的推理速度也很快(~3.3s/7s clips) 。

爱爱姿势视频

文章插图

姿势数据集比原始的RGB数据集要小得多,只有33%的帧的置信度高于0.4,所以最终测试集只有815个片段,且目标类别仅为6个 。

爱爱姿势视频

文章插图

基于语音的模型使用花草了一个简单的ResNet 101,jiyu Audiovisual SlowFast,推理速度非常快(0.05s/7s clips) 。

爱爱姿势视频

文章插图

对语音的预处理为从数据集中剪掉不够响亮的音频 。通过修剪最安静的20%的音频,取得了最佳效果 。总共有大约5.9万个训练片段和1.5万个验证片段 。


参考资料:
https://www.reddit.com/r/MachineLearning/comments/va0p9u/p_r_deep_learning_classifier_for_sex_positions/

相关经验推荐