除了“AI方言发音人招募” 讯飞输入法还放了哪些大招?-香港粤语音乐分享社

据统计，中国的语言正在使用的就有80多种，已经消亡的古代语言更是不计其数。然而，语言作为文化的载体，是保持汉语多样化是维护文化多样性的重要手段。事实上，母语方言在默默地塑造着我们的表达能力，影响着我们的思维方式。拿最直观的感受来讲，不少人都有这样的经历，在描述一件事时，用方言词汇或说法既准确又形象，给人绘声绘色、活灵活现之感。而如果不使用特定方言，则只能传达事件的基本信息，描述起来显得干巴巴的，缺乏灵动和表现力。

不过，方言保护的又困难重重，南开大学汉语言文化学院专门从事方言研究的冉启斌副教授曾说，保护生态环境、拯救濒危物种，我们可以通过人工繁殖、扩大种群的方式完成。而方言保护的困难在于，它必须有使用者。语言脱离不了人的使用，没有人使用的语言就是灭亡的语言。即使语言学家可以记录、复制一种语言，但如果找不到使用者和传承者，这种语言仍然是死的语言。

值得庆幸的是，随着人工智能的崛起，利用人工智能技术进行濒危语言、方言系统地研究一个语言的语音结构、语言结构，实现对一个语言的完整“复制”，可以说是当下最有效快捷的途径。

在6月12日的媒体见面会上，讯飞输入法正式宣布将于本月底新增苏州话识别，方言语种进一步扩充至23种；为更好利用AI保护濒临消亡的方言，讯飞输入法同期启动AI方言发音人招募公益计划，留住完整乡音。

方言发音人招募

实际上，2017年讯飞输入法便发起“方言保护计划”，建立“中国方言库”，用智能语音技术留存、传承、发展承载传统文化积淀的方言，引起了大众的关注和热议。此番启动“方言发音人招募”，面向大众采集标准发音标本，利用人工智能技术实现方言的完整复制，让乡音的文化印记更加深刻，进而推进中国语言资源保护公益事业等，有深远意义。

为更好提升方言保护水平，希望有志于此的用户参与讯飞输入法“方言发音人招募”公益行动，用标准乡音保持各地文化的活力。“方言发音人招募”一方面与地方政府、地方广播电视台等开展深度合作，寻找发音人；另一方面在线上发布“方言保护”APP及“我AI说方言”微信小程序，为乡音代言，同时讯飞输入法应用设置中加入了方言收集互动入口，助力方言留存。

在方言保护领域，科大讯飞目前已拥有30多个语言、少数民族语言及方言的语音系统（文语转换、语音识别、语音翻译），其中实现多个拓荒性语音系统，并在中文普通话、英语等强势语言以外的许多语音合成系统上突破了MOS4.0的门槛。一直以来，科大讯飞从事语言和语音的核心研究，长期积累对语言的共性有了独到的见解，并培养出一支具有综合知识的多语种专家团队。与此同时，构建基于RNN的Global Phone模型的语音系统，Global Phone以言语产生的机制为依据，国际音标组织定义的IPA符号为参照系。值得一提的是，已经实现藏语、维吾尔语，语言的完整复制。锡伯语等濒危语言，语言复制中文语转换模块，在平行文本齐备的情况下，即可形成完整的语言复制。

讯飞输入法究竟有多强？

对于语音输入而言，口音和方言一直都是识别难题。讯飞输入法业界独家推出语音输入，并利用科大讯飞AI技术及语言深度研究的积累，不断拓展方言识别语种、优化方言识别效果。讯飞输入法采用Multi-lingual多语言建模，通过多方言数据共享方式训练；辅以Global Phone全球音素集，从声学层面的相似性统一各方言的音素定义，对方言“语图谱”模型做进一步精进，从而有针对性地提升方言语种的识别能力。2017年推出的“方言保护计划”积累了海量方言数据，是讯飞输入法得天独厚的深度学习素材，使方言识别率日趋精准。目前，讯飞输入法已支持22种方言，其中粤语、四川话、东北话等识别率均已超过90%，获得用户的青睐。本月底，讯飞输入法将新增苏州话识别，方言识别语种将扩充至23种。

值得一提的是，讯飞输入法诞生之初，便确定以语音为核心，业界首家加入智能语音输入。近一年来，讯飞输入法在输入效率和智能化方面取得了长足的进步，不仅做到一分钟识别400字，还支持多语种实时语音翻译、超长语音输入、耳语输入、离线语音输入等功能。更值得一提的是，科大讯飞在感知智能、认知智能以及两种智能深度结合等领域均取得达到国际领先的研究成果，而这些AI黑科技正应用到讯飞输入法上，率先在行业内做到通用语音识别率98%。

语音输入更精准的方法离不开数据和算法。讯飞输入法从人脑神经科学入手对人类记忆进行仿生，实现大量无监督的数据去辅助有人工标注的数据。受图像领域CNN应用的启发，科大讯飞独家研发了深度全序列卷积神经网络（Deep Fully Convolutional Neural Network，DFCNN）语音识别框架，使用大量的卷积层直接将语谱图作为输入，相比传统语音特征作为输入，有效降低信息损失，非常出色地表达语音的长时相关性。同时，借鉴了图像识别中效果最好的网络配置，每个卷积层使用3×3的小卷积核训练更深的CNN模型，输出单元直接与最终的识别结果（比如音节或汉字），从而使识别准确率显著提升。

此外，讯飞输入法以自然语言交互方式——语音修改来解决当前技术束手无策的 2% 不准确。也就是说，使用语音输入的过程中通过自然语言说出指令来修改、添增、删除文字等操作。由于中文拥有复杂的多样性，同音不同义的词非常丰富，这对机器而言存在理解难度。所以，讯飞输入法新增语音修改结果多同音词候选，在机器不能准确理解语义时，通过人工选择更加高效。不仅如此，基于Cache Base Fast Adapation技术，讯飞输入法独创的“智适应”支持一次修改自动记忆修正结果，再次输入相同内容精准识别。

基于科大讯飞精简和优化的Hybrid-DFCNN全新语音识别框架，6月底讯飞输入法将上线Hyper-CNN语音新引擎，随之通用语音识别准确率将相对提升15%，此外有效优化中英混合语音输入、粤语等重点方言、标点判断准确率，提升语音输入的体验。

时至今日，智能语音极大地延展了人类的输入速度，带来的不仅是更便捷的输入体验，更惊喜的是令人惊喜的交互方式。面向未来，输入法将不再局限于五笔、九宫格、二十六键、手写固定键盘形态。讯飞输入法首家推出“莫得键盘”、“语音键盘”、“VG语音交互面板”等革新人机交互，“重新定义键盘”让输入更有趣。

莫得键盘——“没有”键盘，基于讯飞输入法出色的智能语音技术，支持语音输入、语音口令控制，颠覆传统键盘交互，实现无键盘输入。讯飞输入法从用户未来输入角度考虑，为语音重度用户量身定制了语音键盘，呈现便捷的语音输入形态，只凭一张嘴就能轻松打字、修改甚至自动加标点符号，不需学习其他技能。基于智能语音应用，讯飞输入法打造出全新的VG（VoiceGame）语音交互面板，利用AI在交互层面进行了有益的尝试。输入过程等同“玩游戏”，语速快慢、声音大小等直接体现了创意交互。

人工智能正从感知智能向认知智能跨越，科大讯飞人工智能应用愿景正在从“能听会说”到“能理解会思考”。在科大讯飞看来，手机端输入方式发生了巨大的变化，语音输入已经达到了实用的门槛，语音交互的比重越来越大，加上对涟漪效应的理解，讯飞输入法已经成为高粘性的工具类产品。

据悉，截至目前，讯飞输入法用户规模突破6亿，语音输入月覆盖率达50%，语音渗透率保持逐年上升态势。

新增面对面翻译和OCR拍照开启智能输入时代

为践行“人与人无障碍交流”的目标，同时也让更多用户体验AI技术的便利，讯飞输入法尝试将语音识别、语音合成以及机器翻译等新技术融合在一起，新增面对面翻译，支持中文与英日韩俄多语种即时翻译。不仅如此还充分考虑使用场景，将面对面的交互方式引入语音翻译应用中。例如，在对话双方各讲母语时，另一方就会同步看到翻译结果；特别是语音播报功能的加入，让面对面翻译有了自己的“嘴巴”，身边俨然有了一位翻译官，增强了翻译的实用性。

一般从文件、图片中提取文字，需要手工录入大量文字，不仅效率低下且可能出现错字。基于用户刚需，讯飞输入法新增了OCR拍照输入，相当于给输入法安装了一双“眼睛”。这个新功能的用心之处是不管书本、路牌、名片还是其他纸质图中的文字，都能轻松识别并提取出来，方便用户进行编辑、归类、管理，省去大量录入的时间。更令人惊喜的是，内置OCR不仅能识别各类印刷体，对于手写识别准确率也高达90%以上，就算字体潦草也轻松识别。作为高效输入的一种补充，OCR拍照输入可以捕捉输入过程中多场景下的文字，满足用户多样的需求，助力讯飞输入法成为未来最智能化的输入法。

未来，讯飞输入法将继续结合AI，不断提升语音识别、语义理解、机器翻译、图像识别、语音合成技术能力，赋予输入法更多想象空间。

除了“AI方言发音人招募” 讯飞输入法还放了哪些大招?

相关文章