爱爱姿势视频( 三 )

2023-03-05 生活百科姿势

根据目前的SOTA文献，基于骨架的模型优于基于RGB的模型。当然，理想情况下，姿势估计模型也应该在sex domain中进行微调，以获得更好的整体姿势估计。
对于RGB输入流，基于注意力的TimeSformer架构实现了3D RGB模型的最佳结果，推理速度也非常快（~0.53s/7s clips）。

文章插图

RGB模式总共有~1.76万个训练片段和~4900个评价樱花片段，并应用了各种数据增强技术，如重新缩放、裁剪、翻转、颜色反转、高斯模糊、弹性变换、仿生变换等。
基于骨架模型的最佳结果是由基于CNN的PoseC3D架构实现的，模型的推理速度也很快（~3.3s/7s clips）。

文章插图

姿势数据集比原始的RGB数据集要小得多，只有33%的帧的置信度高于0.4，所以最终测试集只有815个片段，且目标类别仅为6个。

文章插图

基于语音的模型使用花草了一个简单的ResNet 101，jiyu Audiovisual SlowFast，推理速度非常快（0.05s/7s clips）。

文章插图

对语音的预处理为从数据集中剪掉不够响亮的音频。通过修剪最安静的20%的音频，取得了最佳效果。总共有大约5.9万个训练片段和1.5万个验证片段。

参考资料：
https://www.reddit.com/r/MachineLearning/comments/va0p9u/p_r_deep_learning_classifier_for_sex_positions/

相关经验推荐

上一篇：正常头围标准男生正常头围标准

下一篇：后背胰腺的位置图片胰腺的位置图片