客服中心

联系AG8亚洲国际
  • 联系地点:广东省广州市天河区科新路优可商务中心B栋3楼
  • 效劳热线:400 605 3393
  • 联系电话:020-85550388 (10线) 020-85550288
  • 传真电话:020-85557779

语音识别,什么是语音识别

揭晓时间:2021年05月18日浏览量:

 语音识别

   与机械举行语音交流,让机械明确你说什么,这是人们恒久以来求之不得的事情。语音识别手艺就是让机械通过识别和明确历程把语音信号转变为响应的文本或下令的高手艺。语音识别是一门交织学科。近二十年来,语音识别手艺取得显著前进,最先从实验室走向市场。人们预计,未来10年内,语音识别手艺将进入工业、家电、通讯、汽车电子、医疗、家庭效劳、消耗电子产品等各个领域。
    语音识别听写机在一些领域的应用被美国新闻界评为1997年盘算机生长十件大事之一。许多专家都以为语音识别手艺是2000年至2010年间信息手艺领域十大主要的科技生长手艺之一。
    语音识别手艺所涉及的领域包括:信号处置惩罚、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
      通过语音控制种种装备、与电脑举行直接的交流是人类恒久以来的梦想。在许多形貌未来天下的影戏、小说中,语音识别险些成为了人工智能的代名词。从上世纪四十年月最先,随着数字手艺尤其是电脑的飞速生长,语音识别手艺成为了科学研究的热门。到八十年月,语音识别手艺最先了从实验室到产品的转移。
       在语音识别手艺领域的研发,最先于上世纪七十年月,现在已经形成了以东京-剑桥-北京为中心的全球研发系统,开发出了包括中、日、英、法、德等十四种以上语言的语音识别系统。中国研发中心,从二零零一年建设以来,致力于中文(包括粤语及种种方言)语音识别手艺的研发,开发了高性能的中文语音识别引擎,如下图所示:
AG8亚洲国际语音识别手艺支持差别条理的系统要求:
 
AG8亚洲国际游戏集团_首页官网
 
1. 高鲁棒性嵌入式语音识别引擎,可以应用到种种电子装备,从而使用语音来完成电子装备的自动控制等。特殊在车载情形下,使用语音来控制种种装备的"hand-free"模式已经成为语音识别手艺最主要的应用之一。
嵌入式语音识别引擎团结了高性能语音端点检测手艺、语音增强手艺和特征赔偿手艺,并接纳了噪声免疫训练,可以在种种噪声情形下事情;特殊针对汽车配景噪声优化,在极低信噪比情形下仍可使用。该引擎无需特殊训练即可供差别语言人使用,并特殊针对差别地方口音举行优化,可以同时支持差别口音的语言人。除了可以完成高精度的下令词识别,东芝的嵌入式语音识别引擎支持大词汇量的地点识别,团结在线文法生乐成能和语音标签功效,使得声控的汽车导航成为现实。别的,该引擎还支持中文数字串识别和人名识别等,可以轻松完成声控拨号/定位使命。引擎接纳磷七效的搜索算法和声学模子压缩等手艺,可以在资源十分有限的条件下事情,现在已经应用到多款汽车导航系统中。
2. 语音对话系统和翻译系统中的语音听写引擎。团结语音识别/合成和机械翻译手艺,差别语言间的自动语音翻译已经成为可能。
语音翻译系统,现在已经支持中、英、日三国语言的互译。作为其中主要的?橹,我们开发了高性能的中文语音听写引擎(大词表一连语音识别系统)。该系统接纳了噪声鲁棒性手艺,可以应用到差别情形中。声学模子训练中接纳了区分性训练,并针对差别地方口音举行了优化;高性能的自顺应手艺,可以在无监视的模式下有用提高对差别口音和情形的顺应能力。该引擎支持大词汇量的语音听写,并提供了用户辞书功效;具有高可移植性,可以为差别领域快速定制识别引擎。
常用的一些声学特征
 * 线性展望系数LPC:线性展望剖析从人的发声机理入手,通过对声道的短管级联模子的研究,以为系统的转达函数切合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来预计。通过使现实语音的采样值和线性展望采样值之间抵达均方差最小LMS,即可获得线性展望系数LPC。对 LPC的盘算要领有自相关法(德宾Durbin法)、协方差法、格型法等等。盘算上的快速有用包管了这一声学特征的普遍使用。与LPC这种展望参数模子类似的声学特征尚有线谱对LSP、反射系数等等。
  * 倒谱系数CEP:使用同态处置惩罚要领,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可获得倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性展望系数后,可以用一个递推公式盘算得出。实验批注,使用倒谱可以提高特征参数的稳固性。
  * Mel倒谱系数MFCC和感知线性展望PLP:差别于LPC等通过对人的发声机理的研究而获得的声学特征,Mel倒谱系数MFCC和感知线性展望 PLP是受人的听觉系统研究效果推动而导出的声学特征。对人的听觉机理的研究发明,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感受爆发突变的带宽界线,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏障效应。Mel刻度是对这一临界带宽的怀抱要领之一。
  MFCC的盘算首先用FFT将时域信号转化成频域,之后对其对数能量谱用遵照Mel刻度漫衍的三角滤波器组举行卷积,最后对各个滤波器的输出组成的向量举行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去盘算LPC参数,但在盘算自相关参数时用的也是对听觉激励的对数能量谱举行DCT的要领。
  语音识别系统的性能指标主要有四项。①词汇表规模:这是指机械能识别的单词或词组的规模,如不作任何限制,则可以为词汇表规模是无限的。②语言人限制:是仅能识别指定发话者的语音,照旧对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机械先“听”一下给定的语音,以及训练次数的几多。④准确识别率:平均准确识别的百分数,它与前面三个指标有关。
小结
  以上先容了实现语音识别系统的各个方面的手艺。这些手艺在现实使用中抵达了较好的效果,但怎样战胜影响语音的种种因素还需要更深入地剖析。现在听写机系统还不可完全适用化以取代键盘的输入,但识别手艺的成熟同时推动了更高条理的语音明确手艺的研究。由于英语与汉语有着差别的特点,针对英语提出的手艺在汉语中怎样使用也是一个主要的研究课题,而四声等汉语自己特有的问题也有待解决。