当前位置: 首页 >同业新闻 >百度、滴滴出来的语音大牛,开创AI语音超市,聚焦细分场景应用

百度、滴滴出来的语音大牛,开创AI语音超市,聚焦细分场景应用

2021-09-24 18:17:43

“因为真相永远就只有一个! ”当磁性、低沉浑厚的声音在人群散开,显得稳重又成熟,像是重力的吸引,将人们的注意力深深抓住,谁也没想到这样的声音竟是一个几岁的小柯南利用变声器发出的。说到变声器,不少人第一反应会想到《名侦探柯南》中柯南使用的领带变声器,但在之前现实中的变声器十分少,有些只能模仿几种特定的模板,商业用途也很局限。

随着AI技术的迅猛发展,更丰富多样、逼真的语音合成技术不断涌现,更厉害的是,还能在声音中加入“人类感情”元素,更广泛地应用在各种生活场景中,令原来难以置信的想象都成为了现实 。

“技术实力派”——突破传统语音合成两大瓶颈

当你打开智能音响或是手机语音助手时,一句“您好,请问您需要什么服务?”从音响蹦出,虽然清晰洪亮,但听起来“机械感”十足,缺少人声该有的特质——在不同场景下的不一样的语音和语调。

其实,这就是传统语音合成技术的缺陷。

通常,传统语音合成的技术有“拼接法”和“参数法”两种方式。波形拼接在语料库中抽取合适的拼接单元,拼接成为句子。参数语音合成则需要对音库进行参数化建模,根据训练得到的模型预测出韵律参数和声学参数。

在时间成本上,参数的合成方式需要进行十个小时左右的录音采集,而波形拼接的语音合成方式则需要几十个小时以上的录音采集, 才能完成一套定制化语音包的制作,周期长,耗费精力大。两种方式,在合成效果上,也难以接近真人的发音,音调韵脚都缺乏表现力。

对于攻克语音合成“不逼真”和“缺乏表现力”这两大难题,标贝科技联合创始人CTO李秀林认为,随着深度学习技术的持续发展,解决语音合成的突破口已经越来越近,对此他充满信心。

我们从李秀林的履历,得知他在语音合成行业已深耕10余年,可谓是深谙此道。

李秀林从中国科学院博士毕业后,先后在松下、百度、滴滴任职,从事10余年语音相关技术研发和相关的学术研究,申请了包括文本处理,韵律预测,声学模型,拼接系统,模型自适应,神经网络应用,情感合成等三十余项语音技术相关专利。

在百度工作期间,李秀林博士带领团队针对小说内容丰富,感情起伏大,需要更强的情感表达的特点,利用基于篇章的、情感更丰富的、更大规模的语音数据(数百小时),通过高精度自动预处理技术对数据进行处理和建模,实现了具有情感表达能力的高质量合成系统,并于2015年10月底上线百度的小说频道,取得了非常好的用户反馈。

这一突破性研发成果引起了百度CEO李彦宏及多位高管的注意,他们为此大力赞扬并推广语音合成技术。2016年,这一项目折桂百度的最高奖项。“百度最高奖”是迄今为止国内互联网企业中给予普通员工的最高奖励。

从百度出来后,2016年至2018年,李秀林担任滴滴研究院语音团队负责人兼首席算法工程师。到了2018年,标贝科技向他抛来了“橄榄枝”。今年3月,李秀林决定加入标贝科技,出任联合创始人兼CTO。

谈其为什么加入标贝科技时,李秀林表示,标贝科技拥有专业标注团队和大量自有数据,其数据加工能力已达到业内领先水平,从中他看到了在创业公司做语音合成技术的优势和机遇。而自己在语音合成行业深厚的技术积累和经验,也可为标贝科技的发展加持砝码。两者相辅相成,相得益彰。

近千小时的语音数据积淀,领跑同行

标贝科技认为,要想让机器的声音更贴近人类,需要从音库质量入手,录制足够多的精准声音数据,从源头把控数据质量。

今年年初,标贝科技推出了TTS评测系统,并针对语音合成系统提供了一整套TTS前端解决方案。根据标贝科技相关负责人介绍,评测系统主要分为两大模块:合成缺陷度评测和合成自然度评测。在合成缺陷度方面,主要体现为韵律、多音字、数字符号及分词词性四个模块,而在合成自然度评测则包括ABX和MOS评测。这一系列的测评,保障了数据处理的精准度,成为语音数据质量的护城河。

除此之外,为了采集合适的人声作为语料,标贝科技的数据专家需要和发声人做大量的前期沟通,指导发声人的说话风格、语调和停顿方式等,并在录音环境进行监听,确保发音人的风格一致。

传统的语音语料数据处理需要人工进行标注,标贝科技则利用深度学习技术,通过计算机程序进行预处理,之后再由人工进行校正,极大缩短了处理时间。

在定制型音库方面,标贝科技已成功为用户提供了150小时的中文女声情感音库、350小时的中文女声音库、100小时的男声音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时葡萄牙语音库、20小时台湾普通话语音库、10小时日语、10小时韩语以及20小时明星语音库等,音库还在不断丰富和积累中。

同时标贝科技还提供自有音库,中文男女声,美语男女声,儿童,粤语,台普、日语、韩语等及个性化音库,广大客户现已能直接使用整体解决方案。

在李秀林加入前,标贝专注于数据服务,凭借在数据加工处理方面的优势,致力于为客户提供快速、准确的专业数据服务,帮助客户盘活各类大数据资源,充分挖掘海量数据中有价值的信息。而现在,李秀林希望和标贝一道完成一次转型——从数据公司转为技术公司,为企业用户提供更垂直的合成服务。

首创声音超市,为产品发力,赋予前沿发展新形态

眼下,在AI领域,声音合成因其多元化的需求正成为不可忽视的红利,科技巨头、初创公司纷纷从不同维度布局语音入口相关产业链。

在B端,苹果,谷歌,微软,百度等行业纷纷开始研发的智能语音技术。在C端,个人虚拟助手和智能音响等智能家居方面,竞争也很激烈。

作为曾经的专业数据公司,标贝科技牵手具有深厚AI语音合成技术背景的李秀林,两者结合往往承载着转型升级的艰巨任务。那么,李秀林究竟具体要做什么呢?

“打造一家AI语音超市,精准对焦各种场景应用”李秀林回答。

AI语音超市,其实就是跟生活中的“超市”一样,有需求的企业可以根据自己不同的需要,专门选购和定制自己的语音合成。


Copyright © 2023 All Rights Reserved 版权所有 香港粤语音乐分享社