400-650-1086
首页 > 最新资讯 > IT新闻 > 正文

百度开发语音识识系统DeepSpeech,嘈杂环境下识别率超Google、苹果

admin 2014-12-22 10:08:05 0

不久前,百度的首席科学家吴恩达(Andrew Ng)在接受採访时曾谈到了百度最近人工智慧的进展情况,强调了近期百度重点是攻关语音识别。现在他们已经在这方面取得了突破。

这项成果的名字叫做Deep Speech,是一款採用深度学习技术的语音识别系统系统。其独特之处在于,它可以在饭店等嘈杂环境下实现将近81% 的辨识準确率。

81%的準确率听起来似乎不算高。但是同样环境下,其他的商业版语音识别API,包括Bing、Google以及Wit.AI等的最高识别率也只有65%。相比之下这就算十分突出的表现了。而且按照吴恩达的说法,这样的结果依然低估了Deep Speech与其他语音识别系统的準确率差异,因为Deep Speech进行比较时还把其他语音识别系统那些返回空白字符串的结果排除在外了。而且Deep Speech跟顶级的学术型语音识别模型(基于流行的数据集Hub5'00建模)相比也高出9个百分点。

百度首席科学家吴恩达称儘管这还只是一项研究,但是公司正在考虑将它集成到供智慧手机和Baidu Eye之类的可穿戴设备使用的语音识别软体当中。而且百度还在开发与Amazon Echo类似、集成有语音助理的家电产品,名字叫做CoolBox。除此以外,百度在开发的智慧自行车当然也能利用Deep Speech技术。

Deep Speech 的基础是某种递归神经网络(RNN),这种递归神经网络经常被用于语音识别和文本分析。

但是Deep Speech 的成功主要得益于一个长达10 万小时的语音数据训练集。这是百度人工智慧实验室团队用新颖的办法在嘈杂环境下建立的。其过程大致是这样的。首先百度收集了7000 小时的语音会话数据,然后再将这些语音文件与包含有背景噪音的文件合成到一起,最后形成约10 万小时的训练集。这些背景噪音包括了饭店、电视、自助餐厅以及汽车内、火车内等场景。相比之下,Hub5'00 的数据集总共只有2300 小时。

当然,这幺庞大的数据,大多数系统都不知道如何去处理。吴恩达表示,Deep Speech的成功很大程度上要取决于百度规模庞大的基于GPU的深度学习基础设施。GPU(图形处理器)往往是偏数学型计算的首选。许多深度学习系统都採用GPU避免通信瓶颈(不过微软的深度学习系统Adam却走了不同的路线),但是像百度这样大规模的设施却是少见的。

百度的另一大改进,是对这个庞大的数据集採用了点到点的深度学习模型,而不是标準的、计算代价高昂的声学模型。传统上一般都会把语音识别分别为多个步骤,其中一步叫做语音调适,但是百度却不做这一步,而是给Deep Speech 的算法提供大量的数据,然后让它去学习所有需要学习的东西。这种做法除了收穫了準确率以外,还显着减少了代码库的规模。

这项研究是吴恩达领导的百度人工智慧实验室多位研究人员的努力成果,论文发表在康乃尔大学图书馆的arXiv.org网站上,感兴趣的可到此处下载。

本文出自36氪 / boxi

文章来源:机房监控 http://www.create-china.com.cn

售前咨询

专线:刘刚 13911133352

E-mail:112417434@qq.com

北京金恒智能系统工程技术有限责任公司 版权所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.

法律声明:未经许可,任何模仿本站模板、转载本站内容等行为者,本站保留追究其法律责任的权利!

电话:86+10-62104277/2248/4249 传真:86+10-62104193-819 京ICP备10010038号-2网站XML

智慧机房

在线体验

CREATE·机房监控 体验端  用户名:Admin    密码:12345 点击体验
在线咨询 电话咨询