原标题 Deep Speech:百度硅谷人工智能实验室利用单学习算法实现英语和汉语识别
百度研究院是百度公司的一个部门(NASDAQ:BIDU),近日公布了其硅谷人工智能实验室(SVAIL)的一项新的研究成果,被称为Deep Speech2。Deep Speech通过使用一个单一的学习算法具备准确识别英语和汉语的能力。其成果已经发表在相关论文中:Deep Speech 2: End-to-End Speech Recognition in English and Mandarin。
去年的时候,百度的首席科学家Andrew Ng博士以及由Awni Hannun领导的10人研究团队在美国康奈尔大学图书馆网站上称,他们已经开发出了一种新的,更为准确的语音识别系统Deep Speech,该系统使用了端对端的深度学习技术。Andrew Ng表示,百度Deep Speech主要专注于提高嘈杂环境(例如,餐馆、汽车和公共交通)下的英语语音识别的准确率。它在噪音环境中(比如汽车内和人群之中)的表现更为突出。在噪音环境下,测试显示百度Deep Speech系统的出错率要比谷歌Speech API,Wit.AI,微软Bing Speech以及苹果Dictation低10%多。
在过去的一年中,SVAIL的研究人员提高了英语语音识别的表现,现在已经开始训练汉语。在许多情况下,汉语版本的语音识别已经实现了相当高的精确度,该系统现已可以大范围应用于真实世界中,比如移动设备上的网络搜索。
语音识别是一项越来越重要的技术,已经被用于苹果语音助手Siri、语音输入功能Dictation以及谷歌语音搜索中。过去二十年中,语音识别技术取得了显著的进步,已经开始从实验室走向市场。语音识别技术,也称为自动语音识别,其目标是将人类的语音中的词汇内容转化为计算机可读的输入。以前的主流的语音识别技术多采用模式识别依赖于大规模数据的获取和高性能计算技术的发展,深度学习(Deep Learning)已经取得了举世瞩目的成绩。目前,端到端的深度学习现在已经成为语音识别最重要的手段。而百度正是采用了这种技术。
“SVAIL已经表明,这种终到端(end-to-end)的深度学习方法可以用来识别各种不同的语言”,Andrew Ng博士表示,“我们的做法的关键是我们使用了高性能计算技术,这导致现在的计算速度是去年同期的7倍,在这个时候。正因为如此高效的速度,过去需要数周的实验现在几天之内就可以完成。这让我们可以实现更快的迭代”。
在这篇研究论文中,SVAIL也提到Deep Speech可以处理来自全世界各地的不同的英语口音。目前,这样的处理对于移动设备上现有的流行的语音系统是非常具有挑战性的。
“通过使用批处理技术将DNNs部署在GPUs上,Deep Speech的语音识别实现了非常高的效率,我对此印象深刻”,NVIDIA的首席科学家Bill Dally博士在谈到Deep Speech的高性能计算架构的时候表示,“Deep Speech在16个GPU上训练卷积神经网络(RNNs)取得不可思议的突破”。
面对各种不同的英语口音(如印度英语口音,以及那些英语不是第一语言的欧洲国家的英语口音),Deep Speech都取得了飞速的进步。
当Deep Speech去年刚刚启动的时候,我就预见到了它的潜力”,卡耐基梅隆大学助理教授Ian Lane表示,“今天,在一个相对短的时间内,Deep Speech已经取得了显著的进步。使用一个单一的端到端系统,它不仅仅能够处理英语,还可以处理汉语,而且目前还在进一步研究在产品中使用。对于百度使用的批处理调度过程,以及将大的深度神经网络部署在云计算服务器中的GPU上的方式,我非常感兴趣”。
相信随着Deep Speech的大范围部署,广泛应用于移动装置的语音识别系统将遭受此系统的巨大冲击。