数据库|语音重建AI「翻译」代言

【数据库|语音重建AI「翻译」代言】数据库|语音重建AI「翻译」代言


「有口难言」的病人 , 是因脑部疾病、神经损伤而引致构音障碍症(dysarthria) 。 透过AI、语音重建技术和扩展障碍语音数据库 , 将患者含糊不清的语音重建成正常语音 。
根据美国言语、语言及听力学会(ASHA)解释 , 构音障碍症是一种神经性语言障碍 。 成人患者常见征状包括说话时在强度、速度、音域、稳定、语调出现异常;在呼吸、发声、共鸣、发音或说话韵律上欠准;面部、口部等构音肌肉功能不理想 , 或有肌肉痉挛、无力等情况出现 。
语音识别技术(automatic speech recognition , 简称ASR)及语音合成技术(text-to-speech , 简称TTS) , ASR是指透过人工智能 , 容许机器接受语音输入(speech input) , 从语音数据库中学习人类语言 , 再将人们的语音变为文字;而TTS则是透过AI , 容许机器将人们输入的文字变成语音输出 。
要研究语音技术 , 就必须使用大数据 。 话语中存有很多变化性(variability)和不变性(invariance) 。 变化性包括不同说话者的各种语调、情感、口音、身体状况等 , 都会改变话语发出的信号;不变性可以是说话时使用的字眼 。 各种变数的出现 , 令语音技术研究需用上大数据辨识话语内容 。
花数年扩展广东话数据库然而 , 现有语音数据库存数据偏颇 , 因为数据一般来自从事IT行业、常用数码化产品、说当地语言时口音较少的人 , 多数为成年人士;相反有口音、语言障碍患者、长者、小朋友等就没有足够的语音数据支撑ASR技术 , 使他们的语音难以被准确辨识 。 另外 , 现存公开的语音数据库 , 部分语言缺乏数据 , 包括广东话 。
透过语音重建技术(speech reconstruction)、ASR、TTS的研究 , 同时花上数年时间扩展广东话的语音数据库 , 协助构音障碍症患者与照顾者更好沟通 。 由2013年开始 , 研究团队与香港中文大学医学院及病友组织合作 , 邀请数十名不同年龄层的构音障碍症患者 , 录制他们常用的广东话用语 , 扩充障碍语音数据 。 录制过程中 , 患者会读出经研究团队精心设计的广东话句子 , 尝试用最少的字句包含所有广东话发音 , 收集研究所需的语音数据 。
以ASR、TTS技术为基础 , 以及团队开发的语音重建技术 , 系统接收到患者含糊不清的语音后 , 利用AI演算法 , 将含糊不清的语音转化成正常语音 , 最后以语音转换技术转换成贴近说话人的发音及语调 。
团队期望日后能把此技术制作成应用程式 , 让更多有需要人士可于不同地方使用 。

    相关经验推荐