科大讯飞|从语音产业的拓荒者到领头羊,科大讯飞智能语音的探索和突破( 二 )



如今 , 在加入科大讯飞的第七年 , 熊世富带领团队成功研发新一代端到端语音识别系统并全网上线 , 又一次保持了科大讯飞语音识别国际领先的地位 。 旁人总以为这位享誉公司的技术大咖应该“天赋异禀” , 自带“码力超强”的光环 。 殊不知 , 技术能力并不是一蹴而就 , 是要经过时间打磨、沉淀出来 。 研究生培养方式不同于本科生 , 除了理论知识 , 还要求工程实践能力 。 在中科大语音研究实验室攻读研究生的第一年 , 当时熊世富导师要求大家写一个程序 , 他想了想 , 挠了挠头 , 于是请教了同学:“哎 , Hello Word , 用编程语言咋写来着?”
孤身一人来到一个虽不算陌生的领域 , 但这里的一切规则都要重新学习、探寻 , 岔路曲径通幽 , 沿途也有惊喜的收获 。
初识深度学习是熊世富在科大讯飞实习的期间 。 从最开始的跨语言迁移学习的任务到提升深度学习的训练效率 , 带着升级打怪的快乐 , 熊世富总在语音方向里探索最前瞻的技术领域 。
而魄力 , 则是他个人在探索深度学习技术上的优势和个人特色 。 从职业生涯的开始即选择了一条大规模深度学习探索之路 , 而这种选择也一直延续至今 。
2013年 , 当业界诟病深度学习的训练效率之时 , 还是实习生的熊世富随即想到了多卡训练这条路径 , 多卡背后的代名词是计算资源 , 大资源加持实验才能找到答案 。 “也是幸运 , 当时我的导师是现今已为我们首席科学家的魏思 , 跟着他一起探索了很多前沿的方向 。 当时要申请计算资源 , 研究院都会批准 , 虽然我只是一个实习生 。 ”熊世富每次回忆 , 都感叹AI研究院对于前瞻研究重视 , 对于技术的包容以及对人才的支持 。 也正是研究院的这种氛围 , 让这位中科大高材生毕业之后留了下来 。
2
直面不确定性:甘坐十年冷板凳
科大讯飞董事长人刘庆峰曾经不止一次讲过这样一段话:“一定要对未来人工智能的核心技术突破 , 不能抱着急功近利的想法 。 基础理论的创新 , 源头技术的创新 , 往往是具有最大的不确定性的 。 人家说三年不鸣 , 一鸣惊人 , 事实上真正做原创 , 可能你要坐十年冷板凳、甚至一辈子冷板凳的心理准备 。 ”
这也是中国科研工作者需要攀越的下一座高山:如果不知道哪一年看到曙光 , 那么做技术的人还会用尽全力么?
“甘坐十年冷板凳这句话对我们这些科研人员的影响力是巨大的 , 这也是我们对技术的追求 , 因为我们相信科技创新才能真正引领未来 。 ”熊世富说到 。
2018年 , 科大讯飞提出了引领性的全新语音识别框架——深度全序列卷积神经网络(DFCNN) , 进一步提高语音转写的准确率 , 引领语音识别技术的发展 。 而在此之前 , 最好的语音识别系统采用双向长短时记忆网络(LSTM) , 但是 , 这一系统存在训练复杂度高、解码时延高的问题 , 尤其在工业界的实时识别系统中很难应用 。
而在另一边 , 熊世富早已在2017年悄然开始了下一代的端到端语音识别系统的研发 。 “研发一代储备一代 , 这是我们对技术的要求 。 ”所以 , 当上一代技术DFCNN尚未成熟之时 , 熊世富就已经开始研究更新一代的端到端智能语音系统了 。
相比传统语音系统 , 端到端系统具有结构简洁、通用性强、不依赖语言学知识等优点 。 进一步它能够通过缩减人工预处理和后续处理 , 尽可能使模型从原始输入到最终输出 , 给模型更多可以根据数据自动调节的空间 , 增加模型的整体契合度 , 避免了多个模型间的误差传导 。 更通俗一些 , 端到端技术即针对需要多阶段的或多步解决的问题 , 模型可以堆在一起优化 。 因此它也被认为是未来智能语音的主流技术框架 。

相关经验推荐