文章图片
随着互联网的不断发展 , 网络安全隐患也逐渐的暴露出来 , 为了整顿互联网环境 , 国家的监管力度也是不断提升 , 内容审核的标准也在不断提升 , 暴力、血腥、政治、黄赌毒及危机青少年不良社会导内容向已成为重点关注区域 。
今天 , 小编给大家带来的内容就是——内容审核中的文本审核的技术与逻辑是什么 。
文本可能是一个签名、一个词组 , 一段文本甚至是一篇文章 , 还有些文字附带在图片上 , 如一张海报 , 一张头像图等 。 从内容上分 , 内容应该分为三种 , 文字 , 图形与语言 。 在文字上来说 , 国内图书有中图法 , 国外有亚马逊分类法 , 高斯分类等 。
对于图片中存在的文字 , 识别最多使用的还是OCR(文本识别技术) 。 对于长短文本及变形变异字体中 , 会使用到垃圾文本处理技术(在AI技术来讲:CRF分词 , NLP , n-gram算法 , 随机森林算法)随机森林指的是利用多棵树对样本进行训练并预测的一种分类器 , 通过对文本的处理进行归类 , 自动预测文本内容的形式 。
当你要做预测的时候 , 新的观察值随着决策树自上而下走下来并被赋予一个预测值或标签 。 一旦森林中的每棵树都给有了预测值或标签 , 所有的预测结果将被归总到一起 , 所有树的投票返回做为最终的预测结果 。 简单来说 , 99.9%不相关的树做出的预测结果涵盖所有的情况 , 这些预测结果将会彼此抵消 。 少数优秀的树的预测结果将会脱颖而出 , 从而得到一个好的预测结果 。 【高通|关于文本审核的技术与逻辑】在对于上下段落中 , 突然出现的垃圾文本或不相关的文字或词组 , 会采用上下语义识别技术(LSTM深度神经网络 , word-embedding) 。 此算法技术 , 会判断此句话中是否跟上下文结合 , 是否是一段无效的垃圾文本 , 最常见场景是我们在评论区随意敲打着一串自己都看不懂的文本 。 此技术很适合用于评论区的灌水 , 刷屏 , 甚至辱骂性的文字内容 。
对于图片的识别 , 目前单靠机器识别 , 还无法满足审核的需求 , 目前机器识别技术只能辅助人工审核 , 暂无法全面机器审核 。 AI机器审核只相当于人类三岁的智商 , 还处于弱智能时代 , 所以为了增强内容审核安全及无延迟的用户体验 , 还是需要人工团队来审核的 。
内容审核除了有文本审核之外 , 还包括图像审核、视频审核、语音审核、直播审核和人脸审核 。 文本审核的技术与逻辑相信通过上面小编的介绍您已经清楚了 , 下次小编带您看看内容审核中其他几类的技术与逻辑都是什么样的 。
相关经验推荐
- 高通骁龙|从3699跌至1899,价格腰斩后的老旗舰,比千元机强大很多
- 天玑9000|OPPO Find X5获3C认证,最强天玑9000旗舰机型,高通仅剩一优势
- 高通骁龙|手机不能追时尚,还需回头望一望!
- 高通骁龙|同为骁龙8旗舰,为何realme真我GT2 Pro最适合游戏?
- 高通骁龙|王腾暗示小米12 Ultra已在路上:牵手徕卡 霸榜DXOMARK无悬念
- 高通骁龙|realmeGT2和realme大师探索版相比较,该如何选?
- 高通骁龙|看完骁龙8新机,喊句“去年的骁龙888旗舰真香”不过分吧?
- 高通骁龙|二千预算如何选机?骁龙870+256GB,这四款吃透性价比
- 高通骁龙|取代骁龙870!新“次旗舰”神U即将推出
- 高通骁龙|骁龙8变焦王即将登场:最高10倍光学变焦,但比荣耀Magic V还要贵