BB贝博ballbet下载
ACTIVITY
当前位置: 首页 > BB贝博ballbet下载
百度寻新突破口图像识别成功“跨界”语音_BB娱乐平台登录艾弗森
时间:2024-12-16 09:45:01人工智能技术的突破往往来自于多方面技术间的融合互通。近日,百度在语音辨识技术方面再行获得突破,将图像识别技术顺利跨界到语音领域,大幅提高语音辨识产品性能,是时隔端对端语音辨识后获得的另一次根本性技术突破。
语音辨识研究源于上世纪50年代,2010年后,研究者们陆续明确提出了基于DNN、CNN、LSTM等技术,使得语音辨识的性能获得了突飞猛进的发展。此前,百度语音每年的模型算法都在不断更新,从DNN,到区分度模型,再行到如今的CNN,百度的语音技术仍然在业界中排在。基于LSTM-CTC的声学模型也于2016年初在所有语音涉及产品中获得了上线。
从HMM框架到CTC框架,百度语音辨识引擎的性能获得进步。随着深度自学近年来飞速发展,以及CNN技术在图像识别中的顺利应用于,以往被业界忽略的DeepCNN技术新的被语音界推崇一起,百度意识到了DeepCNN对语音技术的贡献极大,找寻到下一个突破口。 据介绍,百度这项技术主要是利用深层卷积神经网络(DeepCNN)应用于语音辨识声学建模中,将其与基于宽短时记忆单元(LSTM)和相连时序分类(CTC)的端对端语音辨识技术相结合,该技术相比于工业界现有的CLDNN结构(CNN+5LSTM+DNN)的语音辨识产品技术,错误率比较减少10%。
该技术与深度自学技术的发展密不可分。近些年来,在ImageNet竞赛中,很多深度自学技术陆续明确提出,十分有一点注目的就是在深层卷积神经网络方面的进展。这些网络结构有一个显著的发展趋势,就是更加浅的卷积神经网络层级(CNN)。
CNN技术也大大创下着图像识别的精准度,以人脸识别为事例,辨识准确率高达99.7%。但业界对CNN的进展在语音辨识方面没获得充份应用于,作为一家在语音技术上具有深入研究的人工智能公司,百度将DeepCNN视作语音辨识技术的下一个突破口。
与学术研究有所不同,百度更加注目如何在基于CTC的端对端语音辨识框架中,通过引进深层CNN的思想,更进一步提高性能。另外,百度首次尝试在商用领域的端对端语音辨识技术中引进更加深层的CNN神经网络。
端对端技术用于一个分开的自学算法来已完成从任务输出末端到输入端的所有过程,增加了中间单元以及人为介入,在海量数据的反对下模型效果提高显著。 值得一提的是,语音辨识都是基于时频分析后的语音序已完成的,将整个语音信号分析获得的时频谱当作一张图像,就可以使用图像中已广泛应用的CNN展开辨识,解决了语音信号多样性的问题,且通过引进更加深层的CNN,使语音辨识性能获得明显提高。 百度语音的研发立足点,探讨于技术的实际应用于,技术难度和构建程度更高。
针对语音辨识产品而言,必需不具备在大规模语音数据库上反映性能提高以及具备合适语音在线辨识产品运营的模型。百度使用数千小时展开实验的研究,并在近十万小时的产品语音数据库中展开检验,且充裕的语音数据资源,使基于端对端技术的语音识别系统显著高于以往的框架性能。
除此之外,百度语音技术在数据、计算能力、算法三方面优势明显。百度享有大约10万小时的精准标示语音数据,以及基于数百个GPU的高性能计算出来平台。
在算法方面,百度每年都在大大递归模型算法,语音辨识效果显著提高,领先业界。 此前,百度之后利用端对端技术研发了DeepSpeech2深度语音辨识技术,用作提升在喧闹环境下语音辨识的准确率。
在噪音环境下,其错误率高于谷歌、微软公司以及苹果的语音系统。目前,百度语音辨识准确率高达97%,并被美国权威科技杂志《麻省理工评论》列入2016年十大突破技术之一。另据百度语音技术部辨识技术负责人李先刚透漏,目前的确正在集中力量DeepSpeech3的研发工作,而本次发布的DeepCNN不回避将不会是DeepSpeech3的核心组成部分。
除了技术突破,百度还大力推展用户用于语音交互的普及,手机百度、百度输入法、百度地图、度秘等产品都已反对语音输入功能,而此次跨界的DeepCNN坚信迅速不会应用于到享有可观用户体量的百度产品中。
本文来源:BB贝博ballbet下载-www.utlsarajevo.org
客服电话098-154406408
Copyright © 2005-2024 www.utlsarajevo.org. BB贝博ballbet下载科技 版权所有
客服电话098-154406408