科大讯飞|从语音产业的拓荒者到领头羊,科大讯飞智能语音的探索和突破( 三 )


思想很简单 , 但简洁背后总逃不过“字越少 , 事越大”定律 。 该技术思想原本在翻译任务中发挥重要作用 , 而将端到端技术运用语音方面的研究也是一个个顶尖团队尝试的方向 , 然而其效果始终没有敌过非端到端技术 。
构建端到端智能语音系统 , 熊世富花了整整两年半的时间 。
“确实啃下了不少硬骨头 , 尤其是项目后半段在区分性训练技术上 , 明明已经在大数据上验证了 , 但仍然无法达到想要的效果” 。 为了突破这项技术 , 熊世富就花了整整三个月时间攻关 。
没有结果的时候 , 自我质疑是常态 。 “其实这三个月有一个半月是无用功 。 从科研的角度来看 , 做任何事情都可能面临失败 , 十个项目能够成功两个已经是非常了不起的成绩了 , 我们要接受做的大部分事情都可能是失败的结局 。 ”
“可是从前期的实验结果和我过多年做语音识别的经验来看 , 我相信端到端语音识别技术一定是有前景的 , 可能真的会比上一代更好 。 ”熊世富一边沉淀数据、一边迭代算法的系统 , 继续寻找问题所在 。
2018年 , 科大讯飞端到端技术初露锋芒 , 就在国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation , 简称IWSLT)中 , 以在英德方向语音翻译任务上端到端模型(End-to-End Model)显著优势 , 获得世界第一 。
如果说 2010年深度学习的引入 , 是语音识别领域上一次颠覆性创新 , 那么新一代端到端语音识别的研究 , 无疑标志着语音识别新一轮创新的里程碑 。
新一代端到端语音识别系统带来的效果提升非常显著 —— 识别效果相比传统语音识别系统提升了15%-30% , 在特定场景下 , 特别是时下的应用热点端侧语音识别场景上 , 新系统能实现效果不降 , 系统资源占用大幅下降 。
同时 , 科大讯飞也成为使用这项技术最广泛的一家公司 , 系统于2019年在业界首次全网上线 , 并在讯飞输入法、翻译机、语音转写等重点业务上使用 , 并为语音识别带来了更大的想象空间和更丰富的产品形态 , 如方言免切换、多语种统一建模、中英随心说等 。
回忆起端到端语音识别系统成功的原因 , 熊世富认为:“当时业界大部分团队包括公司内部也有团队都在做小数据的训练 , 而我认为只能用大数据 , 才有成功的可能性 , 而这后来也证明是成功的关键突破 。 另外的难点在于算法框架的参数调整难度非常高 , 而这却是我个人的优势所在 , 在科大讯飞 , 我经历了一代代最新语音识别框架的迭代和更新 , 也可以说一直在接触业界最前沿的技术 。 ”

3
持续精进:勇闯科研的无人区
从研发到一项技术真正的落地 , 人们对它的要求通常是苛刻的 。 这一点从Gartner技术曲线便可以看出:一项新技术刚出现的时候是萌芽期 , 然后进入期望膨胀期 , 然后再回落到低谷期 。 在低谷期 , 各种各样的困难逐步找到解决方式 , 才能够进入稳步的爬升期 , 再形成一个生产成熟期 。
开发的新一代端到端语音识别系统 , 是熊世富和他团队所做努力的第一步 。 “端到端语音识别技术一个难点在于它非常依赖数据 , 在通用领域数据积累丰富 , 但在垂直领域里 , 会有各种面向行业的专有名词 , 端到端的效果还不够好 。 所以端到端系统现在面临的是如何深入各个领域 , 去解决一个领域的效果问题 。 只有攻克这一难题 , 端到端模型才能真正‘走出去’ 。 ”
或许 , 可以将声学模型和语言建模能力结合可以打破数据的限制 , 来解决垂直领域的一个个定制问题 。 “比如我想去看西虹市首富 , 模型非常容易直接输出食物品种的西红柿 , 想要达到精准的转化非常难 。 上一代深度学习只是进行声学建模 , 而目前我们在尝试将声学和语言解耦 , 虽然是联合训练 , 但是可以达到把特定领域的词语单独拎出来替换为我们想要的语言 。 ”

相关经验推荐