科大讯飞|从语音产业的拓荒者到领头羊,科大讯飞智能语音的探索和突破( 四 )


熊世富创新性提出的热词整词建模方法 , 显著的提升了热词识别效果 , 也为攻克端到端语音识别的领域定制问题奠定了关键的基础 。
不过 , 伴随着人工智能技术门槛的降低 , 核心技术领先的窗口期也在逐步缩短 。 带领团队持续提升公司语音识别的领先水平 , 屹立于世界的前沿是熊世富和他团队持续在做的努力 。 “压力一直都在 , 不敢有丝毫松懈 。 始终保持每年技术进步30% , 这是我们对技术的要求 , 也是科大讯飞每一位科研人员的自我要求 。 ”
而随着万物互联的时代到来 , 物理空间和现实空间融合共生 , 每一次科技的技术突破 , 都是为了让人们可以使用更为贴近“自然”的方式与机器进行沟通 。 “未来不管是我们和人工之智能 , 还是和机器人之前 , 都应该是自然的交互 。 如智能汽车、智能家居 , 都能和你对话和交流 , 并能够理解你所讲的话 , 从而提供服务 。 “
寻找下一代人机交互的方式 , 则是熊世富和团队的终极使命 。

“或许多模态技术能够打通人机交互的最后一公里 , 进而带来颠覆性的交互体验 。 ”熊世富预测道 。 多模态技术 , 也叫深度学习多模态融合 , 指机器从文本、图像、语音、视频等多个领域获取信息 , 实现信息转换和融合 , 从而提升模型性能的技术 。 如在车载交互领域 , 科大讯飞的汽车级视线追踪技术让用户注视即可实现唤醒交互 , 目光所至皆可控制 。 同时 , 唇音融合语音技术的创新型加入 , 具备唇音免唤醒、唇音检出、唇音增强三大核心能力 , 开口说话就能一语直达 , 就算是轻声细语 , 也能听清 。
4
科大讯飞——无限深入的神经网络
从面对国内语音市场的一片空白到如今技术实力代表着全球领先水平 , 科大讯飞智能语音发展的历程也在一定程度上代表了科大讯飞的一路走来的创业历程 。
可以说 , 在智能时代 , 科大讯飞就是一面中国智能语音的旗帜 。 中国语音产业联盟刚刚发布的《2020-2021 中国智能语音行业白皮书》引用德勤数据显示 , 作为大型智能语音科技企业的代表 , 科大讯飞凭借较强的研发优势 , 以60%的市场份额稳居第一 , 竞争优势明显 。
而科大讯飞的理想也从让机器开口说话到让机器能听会说 , 能理解会思考 , 用人工智能建设美好世界 。
我们曾经将科大讯飞比喻为一个很宽、很深的生成式神经网络 。
一个典型的生成式神经网络包括了输入层、编码层、输出层 , 对于一个AI企业而言 , 输入是AI三要素:算力、数据、算法 , 输出是技术和产品 , 编码层则是企业的组织方式和技术方法论 , 以及企业的人才 。
在《不一样的科大讯飞 , 他们把计算机视觉踢进“世界杯”》这篇文章中 , 我们了解了科大讯飞对人才的重视 , 以及独特的组织方式 。 而在《科大讯飞认知智能 , 从场景中来 , 到行业中去》这篇文章中 , 我们则窥探了这个无限拓宽的神经网络的秘密——如何定义并建立对不同行业的真正认知 。
这其中保证这个很宽、很深的生成式神经网络发展张力的源泉 , 或许可以从创业之初的故事来的探寻——在公司历史上著名的“半汤会议”上 , 当团队聚集在一起对于公司未来议论纷纷之际 , 最终创始人刘庆峰拍板 , “继续做语音 , 谁不乐意直接走人” , 坚定了“智能语音”的战略方向 。 “燃烧最亮的火把 , 要么率先燎原 , 要么最先熄灭” , 刘庆峰在当年的年度大会上说的话至今仍被挂在科大讯飞大厦的墙上 , 激励着公司在智能语音与人工智能道路上不忘初心 , 坚守前行 。

相关经验推荐