联系方式   Contact
你的位置:首页 > 技术支持 > 知识交流

语音识别技术浅谈

2013-6-22 17:28:26      点击:

语音识别技术

      语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术

  与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域
   语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一
语音识别技术的基础
  语音识别技术关系到多学科的研究领域,不同领域上的研究成果都对语音识别的发展作了贡献
  让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话一样,它和不同的说话人、不同的说话速度、不同的说话内容、以及不同的环境条件有关。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性,动态性,瞬时性和连续性等。 计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分: 1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。 2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。
  声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。 语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难:
    
1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。 2)中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。 3)大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。
语音识别技术的发展情况
  我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

  清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到948%(不定长数字串)和968%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到969%(不定长数字串)和987%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到9873%,前三选识别率达9996%;并且可以识别普通话与四川话两种语言,达到实用要求。

  20007月在北京自然博物馆新开设的动物展馆中展出的具有语音识别口语对话功能"熊猫",采用了我们研发非特定人连续语音识别系统,在展览馆这样高噪声的环境下,该识别系统的识别率也超过了98%,达到实用要求。通过该系统观众与"熊猫"自然对话可以了解熊猫的生活习惯、生理结构等信息,其形式生动、活泼,吸引了大量的学生与参观者。

  采用嵌入式芯片设计技术研发了语音识别专用芯片系统,该芯片以8位微控制器(MCU)核心,加上低通滤波器,模/数(AD),数/模(DA),预放,功率放大器,RAMROM,脉宽调幅(PWM)等模块,构成了一个完整的系统芯片,这是国内研发的第一块语音识别专用芯片。芯片中包括了语音识别、语音编码、语音合成功能,可以识别30条特定人语音命令,识别率超过95%,其中的语音编码速率为16kbitss。该芯片可以用于智能语音玩具;也可以与普通电话机相结合构成语音拨号电话机。这些系统的识别性能完全达到国际先进水平。研发的成果已经进入实用领域,一些应用型产品正在研发中,其商品化的过程也越来越快。
语音识别技术的前景和应用
  在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的"提供者"和生活"伙伴";使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

  语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

  可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

语音识别的"内核"

语音交互的实现:

  1996年,IBM公司发布了VoiceType中文语音识别软件,首次将其语音识别产品介绍给中国用户;19979月,IBM推出了ViaVoice中文连续语音识别系统,标志着中文语音识别技术商业化进程开始启动。 然而,语音识别技术并不是一夜之间冒出来的神话,自从有了计算机,人们就开始了语音识别技术的研究,因此可以说语音识别的历史和计算机一样长。特别是在70年代前后,研究的脉络日渐清晰,贝尔实验室和IBM等都先后建立了专门的研究机构。

      今天这两家公司在这一领域都已取得了显著的成果,并且在商业上应用成功,贝尔实验室主要偏重于电信方面应用的语音识别系统,如电话查询等;而IBM则偏重于商务应用,因而在连续语音识别上取得了不小的成功。 
     
不谈商业方面的应用,事实上,很多公司都提供语音识别的引擎(Engine),并且都表示能支持微软的SAPI。看一看SAPI 4.0SUITE就不难发现,微软在这方面的研究并不逊色,只是很奇怪它居然没有将成果商业化。微软同时提供了一系列引擎,如SpeechRecognition(语音识别)Command&Control(发布指令并控制)PhoneQuery(电话语音识别)Texttospeech(文本语音转换)等。 今天,许多用户已能享受到语音技术的优势了,可以对计算机发送命令,或者要求计算机记录用户所说的话,以及将文本转换成声音朗读出来。尽管如此,距离真正的人机自由交流的境界似乎还很遥远。现在已有商用系统存在的主要问题是:系统鲁棒性还有待改进,如对于噪声环境下或方言的语言识别率和稳健性等都不尽如人意。 不可否认,语音识别技术还有一段路需要走,要做到真正成功的商业化,它还需要在很多方面取得突破性进展,这实际上也是其技术的未来走向。

语音识别难的技术难点

      计算机自动语音识别就是让计算机能听懂人说话。这一问题曾经被一位知名的美国教授称之为是"比登月还难"的科学难题。其实,人们很早就认识到语音识别对于人类生活的重要性。世界上第一台计算机问世之后,马上就有人想到要让计算机听懂人说话。所以说,语音识别的研究历史与计算机的发展历史一样长。计算机的发展已经经历了好几代,今天已经进入到了普通家庭。但是,语音识别方面的产品却迟迟未能进入市场。那么,它难在哪儿呢? 计算机语音识别是一个模式识别匹配的过程。在这个过程中,计算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板。然后,据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。 一个语音识别系统性能好坏的关键首先是它所采用的语音模型能否真实地反映话音的物理变化规律,所用的语言模型能否表达自然语言所包含的丰富语言学知识。然而无论是语音信号还是人类的自然语言都是随机、多变和不稳定的,很难把握。这就是目前语音识别过程中的最大难点。 其次,模板训练的好坏也直接关系到语音识别系统识别率的高低。为了得到一个好的模板,往往需要有大量的原始语音数据来训练语音模型。因此,在开始进行语音识别研究之前,首先要建立起一个庞大的语音数据库和语料数据库。一个好的语音数据库包括足够数量、具有不同性别、年龄、口音说话人的声音,并且必须要有代表性,能均衡地反映实际使用情况。 有了语音数据库及语音特征,就可以建立语音模型,并用语音数据库中的语音来训练这个语音模型。训练过程是指选择系统的某种最佳状态(如对语音库中的所有语音有最好的识别率),不断地调整系统模型(或模板)的参数,使系统模型的性能不断向这种最佳状态逼近的过程。这是一个复杂的过程,要求计算机有强大的计算能力,并有很强的理论指导,才能保证得到良好的训练结果。 当语音识别系统对语音进行识别时,相对来说,其识别过程要比训练过程简单,对计算机的运算能力要求也很低,并且速度较快。这有利于实时地实现语音识别系统和进行商品化开发应用。

      那么,制约语音识别技术发展的根本是什么呢?接受记者采访的清华大学王作英教授认为,语音识别的关键是其依据的模型和算法,模型算法是计算机描述语音的能力能否抓住人的语音的本质的关键。在语音识别领域,固然有资金实力、人力资源等的竞争,但最根本是其关键核心技术--模型和算法的竞争。 DTW逐渐淡出HMM占据统治地位: 要建立一个语音识别系统仅有一个好的语音特征还不够,还要有一个好的语音识别的模型和算法。在语音识别系统中通常分为两个部分:声学层部分主要研究如何充分利用语音信号中的信息;语音学层部分主要研究如何充分利用已有语音学知识来提高系统的识别率。目前,大家关注的中心是低层中声学层部分所涉及的模型和算法。     

      目前,在研发语音识别系统时常用的算法有基于神经网络的训练和识别算法、基于动态时间归整匹配(DTW)的识别算法和基于统计的隐含马尔可夫模型(HMM)识别和训练算法。 基于神经网络的训练识别算法由于实现起来较复杂,且识别率并不见得比基于统计的语音识别模型好,因此,这种算法目前仍处于实验室研究阶段。 基于动态时间归整匹配的DTW算法从目前来看,可能是一个最为小巧的语音识别的算法。其系统开销小,识别速度快,在对付小词汇量的语音命令控制系统中是一个非常有效的算法。但是,如果系统稍微复杂一些,这种算法就显得力不从心了。 基于统计的HMM算法可能是目前最为成功的一种语音识别模型和算法了。目前所能见到的各种性能优良的连续语音识别系统几乎无一例外地采用了这种模型。这是因为这种数学模型出现的时间较早,人们对它的研究也比较深入,已建立起了完整的理论框架。从20世纪80年代初人们开始用这种模型来描述语音信号后,就不断有人对它进行了各种改良和发展。这种隐含马尔可夫模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的(如这种状态可以是语音的某个音素),而是以某种隐含的关系与语音的观测量(或特征)相关联。而这种隐含关系在HMM模型中通常以概率形式表现出来,模型的输出结果也以概率形式给出。这为系统最后给出一个稳健的判决创造了条件。

      如今,各种形式的HMM模型和算法已日趋成熟,以它为基础已经形成了语音识别的整体框架模型,它统一了语音识别中声学层和语音学层的算法结构,制定了最佳的搜索和匹配算法,以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起。因此,HMM语音识别模型与算法是迄今为止最为完美的一个语音识别模型,从中也可看出好的理论体系对研究工作所起的重要的指导作用。 HMM"内伤" 许多从事语音识别技术研究的公司都把HMM当做"救命稻草",对其展开了大量的研究开发,随着语音识别研究工作的深入开展,HMM语音识别方法愈来愈受到人们的重视,但与此同时,人们也愈来愈认识到经典HMM语音识别模型在一些重要方面存在严重的缺陷,这就是: 经典HMM是一个齐次的Markov模型,状态转移概率与状态驻留长度无关,与语音的实际过程不符; 经典HMM现有的模型训练算法和识别算法都是假设语音特征是相互独立的,这也不符合语音信号的实际情况; 经典HMM模型用于大词汇表的识别系统时,其模型的训练量是灾难性的; 模型的存储量太大。 任何一个成功的语音识别模型,都是基于其参数具有聚类性这一基础上的。HMM模型之所以能达到很高的识别率,是由于反映其状态的特征参数具有聚类性,从而它必然是对应于语音学中的语音单位(如音素),声学上则必然是对应于某种声学单元或发声器官的某种结构状态。语音学的研究表明,语音单位(如音素)在词中的长度有一个相对平稳的分布。正是这种状态长度分布的相对平稳性破坏了HMM模型的齐次性结构。 DDBHMM浮出水面: 王作英教授1988年年底向"863"计划提交的"语音识别的改进隐含马尔可夫模型",可以说是对语音识别模型算法的一次重大革新。它指出了传统的HMM模型在语音识别应用中存在的问题,得到了一个基于段长分布的非齐次隐含马尔可夫模型(Duration Distribution Based Hidden Markov ModelDDBHMM)。以此理论为指导所设计的语音识别听写机系统在1994年~1998年的全国语音识别系统评测中取得三连冠,从而显示了这一新模型的生命力和在这一研究领域内的领先水平。 HMM模型是在国际上在语音识别系统中被广泛引用的一种模型,但是它有一个主要的缺点,即根据词模型推出的状态段长分布是指数分布,这不符合语音的本质属性。而王作英教授提出的DDBHMM(基于段长分布的HMM)模型解决了这一缺陷。它是一个非齐次的HMM语音识别模型。在此模型中用状态的段长分布函数替代了齐次HMM中的状态转移矩阵,彻底抛弃了"平稳的假设",而从非平稳的角度考虑问题,使模型成为一种基于状态段长分布的隐含Markov模型。段长分布函数的引入澄清了经典HMM语音识别模型的许多矛盾。

      同时,由于非齐次HMM是一个有后效过程,不能用Bellman的动态规划求最大似然路径,也不能用Baum的重新估值算法对模型参数进行训练。对于这类有后效的多阶段决策问题,如果用完全搜索算法求解最佳路径,其计算复杂性太大,甚至在现有硬件水平上无法实时运行。因而,必须建立新的非齐次HMM训练算法和识别算法。DBBHMM比国际上流行的HMM语音识别模型有更好的识别性能和更低的计算复杂度(训练算法比流行的Baum算法复杂度低两个数量级)。由于该模型解除了对语音信号状态的齐次性和对语音特征的非相关性的限制,因此为语音识别研究的深入发展提供了一个和谐的框架。 有好的模型只是一个开始,还需要做大量的工作。以前的模型可以借助其他技术如神经网络技术改进模型的不足,DBBHMM模型的出现促进了语音识别模型与算法的竞争与发展。未来,在语音识别领域,基于HMMDBBHMM两种模型的语音识别系统将齐头并进,展开竞争。基于HMM的系统"走得早",且有大量资金和技术力量的支持;后发的DBBHMM系统有理论优势,但需要做的工作却很多,短期内两种系统将共存。另外会不会出现更好的第三种模型算法,现在还不能断定。

 

本网地址:http://www.jxwg.com.cn/

本文地址:http://www.jxwg.com.cn/html/9437622826.html (转载请注明出处)