时间:2023-03-25 11:26:28
序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇语音识别技术范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!
该文主要致力于解决通话中的语音识别技术,长期可推广至QQ语音聊天等即时聊天软件中,相较于目前大多数语音识别软件需要手动打开更为主动,让用户感觉不到软件的存在,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,大大提高了效率,并对听力有障碍的人士有更为重要的意义。
一、语音识别基本原理
语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板,然后根据此模板的定义,通过查表就可以给出计算机的识别结果。 [1]
二、通话中语音识别技术
2.1技术原理:
1、基本架构:Smartalk通话系统基于“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务,并加以对手机GPS位置、通讯录、社交软件信息的分析,在“云”的辅助下对之进行处理和交换。Smartalk架构分为4个部分:客户端、语音视频服务、语音识别服务、云数据处理分析。利用“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务可将用户在通话中涉及的地点、人名、电话号码等关键词提取出来并加以分析对行程和下一步操作提供帮助。
2、基本平台:本系统基于APIcloud开发,兼容云端和第三方SDK,可跨平台(Android、IOS、Windows等)使用,采用标准的c++语言实现。
2.2功能实现:
1、基于“云之讯”开放平台的通话系统:云之讯融合通讯开放平台为企业及个人开发者提供各种通讯服务,包括在线语音服务、短信服务、视频服务、会议服务等,开发者通过嵌入云通讯API在应用中轻松实现各种通讯功能。
2、基于“科大讯飞”开放平台的语音识别系统:。讯飞开放平台使用户可通过互联网、移动互联网,使用任何设备方便的介入讯飞开放平台提供的“听、说、读、写”等全方位的人工智能服务。目前开放平台向开发者提供语音合成、语音识别、语音唤醒、语义理解、移动应用分析等多项服务。
3、语音识别与云端大数据结合分析:。利用基于“云之讯”通话系统和“科大讯飞”语音识别系统实现了实时的语音识别,加以云端大数据的结合,和实时的分析用户当前的需求和问题,及时的跟用户产生交流反馈,并根据用户长期的使用时间分析智能提前推送相关信息。
2.3未来展望:
基于大数据和互联网+技术的日益发展与完善,并随着通信传输速度的逐渐提高,可在实时的条件下分析与推送更多丰富的内容,加以与即时聊天软件的结合,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,并对听力有障碍的人士有更为重要的意义,未来的市场前景广阔。
三、语音识别技术应用
3.1 语音指令控制在汽车上的应用:
语音控制人员只需要用嘴说出命令控制字,就可以实现对系统的控制。在汽车上,可用于汽车导航、控制车载设备。如车灯、音响、天窗、座椅、雨刮器等。
3.2语音识别技术在医疗系统中的应用:
医疗语音识别技术,已有厂商开发了基于云平台的语音识别系统,可直接内嵌到医院电子病历系统中,让医生通过语音输入病人信息,填写医疗记录,下达医嘱信息。
四、相关市场调研
1、国内外市场分析:2015年全球智能语音产业规模达到61.2亿美元,较2014年增长34.2%。其中,中国智能语音产业规模达到40.3亿元,较2014年增长增长41.0%,远高于全球语音产业增长速度预计到2016年,中国语音产业规模预计达到59亿元。[2]
2、相关应用发展:拉斯维加斯消费电子展(CES)上展示的MindMeld。在通话中,如果参与者点击应用的一个按钮,那么MindMeld将利用Nuance的语音识别技术,分析此前15至30秒对话。随后,MindMeld将确定对话中的关键词,以及其他多个信息来源,查找具有相关性的信息,并在屏幕上向用户提供图片和链接地址。[3]
参 考 文 献
语音识别技术成为21世纪“数字时代”的重要开发领域,在计算机的多媒体技术应用和工业自动化控制应用等方面,成果令人属目。语音识别技术是指用电子装置来识别某些人的某些特征语音,语音识别的手段一般分为二大类,一类利用在计算机上开发语音识别系统,通过编程软件达到对语音的识别,另一类采用专门的语音识别芯片来进行简单的语音识别。利用专门的语音识别芯片应用在地铁车辆上,具有结构简单、使用方便,并且语音识别器有较高的可靠性、稳定性的特点,是简单语音识别在自动控制应用上的一种优先方案。
目前上海地铁
一、
二、
三、
五、
六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,
增加了车站站名动态显示地图。
如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,
对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。
设计一种符合现代化要求的乘客信息显示系统是非常必要。
2.设计
地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。
针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。
语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。
(1)输入控制部分:
通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T<0.9秒内的正确输入语音字长。
(2)语音识别部分:
利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。
(3)噪音滤波部分:
滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。
(4)执行显示部分:
将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。
(5)录音功能部分:
在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。
3.结论
语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。
本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。
参考文献:
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成电路实用大全上海科技普及出版社
3.①获得“2003年上海市优秀发明选拔赛三等奖”
一、引言
随着我国外语教学的不断发展,各种外语口语教学工具与学习方法也应运而生。然而外语口语的学习对于学习者而言既是重点也是难点,当前的计算机辅助教学只是侧重于外语单词记忆教学与语法教学,并且因为外语口语学习者的学习水平不一,在学习过程中很难将自己的不正确发音找出来。于是,在外语口语学习中就可以应用语言识别技术,该系统具备外语口语发音的纠正功能,学习者通过该系统进行外语口语的学习与练习,就能纠正自己错误的发音,避免因为多次错误发音而形成不良习惯。因此,对外语口语训练中语音识别技术进行研究,能够提高外语口语学习者的学习效率。
二、外语口语学习中语音识别技术应用的重要意义
随着中国改革开放程度的深化以及全球经济一体化的飞速发展,世界各国的交往越来越频繁,学习并掌握一门外语,对于人们的工作与生活而言,已经成为必不可少的工具。在学习外语的需求不断增长的情况下,出现了各种外语教学方法、教学工具以及语言学校等,然而国人在外语学习过程中,外语的口语教学与学习一直是较难突破的难题,其主要原因有以下几个方面:
(一)各种外语发音的特点与汉语发音的特点存在较大差异,因而可能导致国人在学习外语时由于受到母语的深厚影响而犯下许多自己根本无法察觉或者是很难察觉的发音错误。
(二)目前在国内合格的外语口语教师还是很少,自己发音标准又能够准确地指导别人进行口语学习的外语教师,即便是在一些大中城市的中小学中也相当缺乏。同时,一般的媒体教学也不能够针对学生的特定情况,有效地让学生与教师互动进行口语训练,只能够单方面地进行传授,所以起到的作用也不是很有效。
外语口语训练中语音识别技术的应用,让软件具备了矫正错误发音的功能,能够为学习者及时改正错误的发音提供帮助,从而有效避免错误反复而变成一种恶性习惯,并使外语学习者口语学习的效率与效果得到一定程度的提高,获得更大的市场价值与社会效益。
三、外语口语训练中语音识别的关键技术
(一)语音识别
在语音识别技术中,语音识别是第一步也是最重要的一步,接下来几个步骤的精确度都会受其影响,它能够在语法与音素模型的基础上,将输入的语音信号翻译成单词串。同时,许多基于计算机的语言训练活动都可以应用这一部分,比如基于语音的选择题或者是与计算机的对话训练等等。
(二)语音评分
在基于语音识别技术的外语口语学习系统中,语音评分技术是最基本也是最核心的组成部分。语音评分技术能够评价并反馈学习者的口语发音情况,可以让学习者通过反馈的结果对自己的学习结果进行检查。通常情况下,按照语音评分技术,目前的外语口语学习系统主要可以分为两种:一种是基于语音特征比较的评分方法,它通过将学习者的发音与标准语音进行对比参考,从一个较为主观的角度对一段语音质量进行评价,通常采用动态时间规整技术实现,因为其具备运算量小的特点,因而在嵌入式系统与手持设备中运用较多;另一种是基于声学模型的评分方法,它能够通过语音识别技术将以计算发音质量所需的小单元切割出来,然后再通过事先训练好的声学模型与其进行对比,最后根据评分机制对其评分,因为该方式较为客观,目前主流的外语口语学习系统中均采用这种技术,其主要是基于隐马尔可夫模型(HMM)技术实现。
如图1,基于HMM的语音评分流程图所示,其语音评分的关键技术分为以下几步:
图1 基于HMM的语音评分流程图
1.首先,对学习者所输入的语音进行特征提取;
2.其次,将已经训练好的HMM作为模板,再采用Viterbi算法将语言以计算发音质量所需的小单元进行分割,并强制对齐;
3.最后,采用不同的评分机制对不同的需要进行评分,将评分结果得出。同时,在某些情况下,要注意将说话验证在语音评分开始时加入,从而将学习者发音内容与标准发音完全不同的部分挡下,保证整个口语学习系统的可信度更高。此外,由于同样的声音可能代表的意义不同,因而在这些更加复杂的应用中,需要将各种词发生概率的大小、上下文的关系进行综合考虑,并将语言模型加入,从而为声学模型的判断提供更好的辅助。
(三)发音错误检测与错误纠正
对于外语学习者而言,虽然知道系统能够评价其发音质量,但是单凭非母语学习者自己对其自身错误的所在还是不能清楚地了解到,对这个错误也不知道如何进行纠正。因而,外语口语学习者需要通过系统对发音的错误进行检测与定位,并将相应的错误纠正建议提供给学习者进行有效纠正。
1.发音错误的检测与定位
在外语口语训练中,导致错误发音的因素有很多。例如学习者不会发某种声音,或者是受到其他语言拼读方法的影响以及不能正确体会到两种声音的差别等等。语音识别器也是发音错误检测中使用的一种方法,比如用母语训练的语音识别器,但是因为在没有使用自适应技术的情况下,学习者发音的识别错误也有可能会当成是发音错误,因而这种方法就很难准确地检测到非母语学习者的发音是否正确。所以,目前对错误发音的检测比较合理的一种做法是:首先以发音专家的知识为依据,严格将容易出错的发音进行合理的分类,然后以不同的错误类型为依据,将其相应的检测算法设计出来,最后用各种错误检测算法对学习者的发音分别进行检测。
2.发音错误的纠正
系统将发音错误检测出来后,同时就对学习者所犯的错误根据专家关于发音错误的知识给出相应的错误提示与错误纠正建议。其中,对于这些发音专家知识的构建而言,是通过事先收集大量的经验数据而积累而成的,例如不同学习者的发音特点等,然后通过数据挖掘的聚类算法将不同学习者不同发音特征的聚类准确地计算出来,再由专家客观地评判分类的发音,最后将各聚类的改进建议提出来。
(四)回馈展示
在基于语音识别技术的外语口语学习系统中,这一部分是整个系统对用户的窗口,上述部分所产生的信息都可以通过分数条或者是数字的形式为外语学习者展示出来。同时只有通过这个模块,外语学习者才能够从基于语音识别技术的外语口语学习系统中获益,所以,整个系统的可用度都通过这一模块设计的好坏来决定。
四、结语
总而言之,随着社会经济与科学技术的快速发展,各种带有语音识别技术的便携式终端设备出现在人们的日常生活与学习中,为广大外语爱好者与学习者提供了不受教师资源、地点以及时间等限制的智能外语学习系统,有效地提高了外语学习者的学习效率与学习效果,相信在未来,也能够为外语学习者们提供更快、更好的电子学习手段。
【参考文献】
[1]卢永辉.语音识别技术在外语口语训练中的应用[J].电脑知识与技术,2014(04):836-837,843.
[2]吴艳艳.孤立词语音识别的关键技术研究[D].青岛:青岛大学,2012.
中图分类号:TP316.9
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2015.07.021
0 引言
随着计算机的发展,智能家居在近几年也得到了大家的重视,智能家居利用各种通信、网络技术实现家居设备集成,为用户提供了更加舒适高效的环境。近几年人们对智能家居的便利程度提出了更高的要求,同时语音识别技术也进一步的发展,但是语音在智能家居中的应用还是相对较少,一般还要依靠遥控、手机等中控设备。语言是信息交流的重要手段,语音识别可以用声音来控制设备完成一些特定的命令,减少用户如手机,遥控等中控设备的依赖,使生活更加方便。
本文通过对语音识别技术与嵌入式控制技术的研究,用语音命令实现直接管控从而可以取代以往利用手机或者遥控方式来控制的方法,方便操作而又能提高效率。本系统基于NL6621板与语音芯片VS1003实现语音采集,并采用当今语音识别领域的主流技术一一隐马尔科夫模型(Hidden Markov Model,HMM)算法实现对人语音命令的识别主要是进行模型训练和匹配。实验证明在多个语音样本对系统的训练识别下,系统在非特定人、孤立词语识别上具有良好的效果。
1 语音识别与智能家居
1.1 语音识别技术
语音识别技术本质上是一种模式匹配识别的过程,是机器通过识别和理解过程把语音信号转变成相应的文本文件或命令的技术。根据模式匹配过程语音识别系统可以如下图表示。语音识别系统可以分为:特定人和非特定人的识别、独立词和连续词的识别等,无论哪种识别系统识别过程都主要包括了语音信号预处理、特征提取、训练等。分别通过对信号的预处理分析和计算建立模板,当对语音进行识别时,需要将输入的语音与系统中存放的语音进行比较从而得到识别结果。
1.2 语音识别算法
人的言语过程是一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的不可观察的、根据言语需要和语法知识状态选择所发出的音素(词、句)的参数流,大量实验表明,隐马尔可夫模型(HMM)的确可以非常精确地描述语音信号的产生过程。隐马尔可夫模型是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程,采用HMM进行语音识别,实质上是一种概率运算,根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。一阶离散马尔可夫模型可表示为:有N个状态,Sl,S2... SN,存在一个离散的时间序列t=0,t=1…在每个时刻t,系统只能处于唯一一个状态qt,下一个时刻所处的状态是随机出现的,当前状态qt只与前面相邻的一个状态qt-l有关, 与其他状态无关,用表达式
HMM语音识别的一般过程:
1.前向后向算法计算
已知观测序列 和模型 ,如何有效的计算在给定模型条件下产生观测序列O的概率
2.Baum-Welch算法求出最优解 :
(1)初始化
(2)迭代计算
(3)最后计算
3.Viterbi算法解出最佳状态转移序列:
已知观测序列 和模型 ,如何选择在某种意义上最佳的状态序列。
(1)初始化
(2)迭代计算:
4.根据最佳状态序列对应的九给出候选音节或声韵母
5.通过语言模型形成词和句子
2 基于NL6621嵌入式硬件设计
语音识别的硬件平台主要包括中央处理器NL6621,可读写存储器,声卡芯片vs1003以及一些设备,硬件体系结构如图2所示。
主系统使用新岸线公司的NL6621。MCU采用的最高主频为160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,软AP,WiFi保护设置以及WMM-PS和WPA/WPA2安全协议。codec芯片是vs1003,它与核心控制器NL6621的数据通信是通过SPI总线方式进行的。它集成了麦克风输入接口,音频输出接口,对话筒输入或者线路输入进行IMA ADPCM编码,能有效的接受和播放音频信息。
硬件电路实现:VS1003通过xCS、xDCS引脚的置高或低来确认是哪一个接口处于传送状态。通过串行命令接口(SCI)和串行数据接口(SDI)来接收NL6621的控制命令和数据,通过SCI HDAT1来获取语音流;VS1003的功能控制,如初始化、软复位、暂停、音量控制、播放时间的读取等,均是通过SCI口写入特定寄存器实现的。两条SCI指令之间要通过DREQ引脚信号判断上一次处理是否完成。
3 基于NL6621嵌入式软件设计
软件设计主要包括两部分实现软件控制嵌入式系统和基于HMM技术的语音识别算法编写,基本的软件架构如图3所示。
针对嵌入式系统控制部分,包括硬件初始化以及采集音频信号。主要是使用NL6621提供的软件开发包,利用SDK编写应用程序,包括硬件管脚初始化,波特率匹配,录音文件配置,WiFi配置,录音,音频文件格式转化、程序编写完成后需要用烧写工具进行烧写。系统启动后,先初始化硬件模块。然后系统开始工作,通过语音输入设备MIC采集语音,并通过声卡VS1003输入语音。当系统监听到语音输入,开始语音识别,判断识别是否正确,若正确,将命令发送给执行设备,入耳不正确,给出相应
一、引言
语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
二、语音信号分析与特征提取
1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。
2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:
1 语音识别技术原理
语音识别是为了让机器“懂”我们的语言,准确无误地识别出我们发出语音内容,并且做出符合语音内容的一系列动作,执行我们的意图。分析人类语言交流通信的过程,可以启发我们的研究思路。对人类语音通信流程[1-2]分析如图1。
由人类语音通信流程框图可以看出,人类发出语音过程如图左半部分,语音理解过程如图右半部分。语音识别包括两种含义,一是:将人类说的话转换成文字,二是:在充分理解口述语音的基础上,不仅仅是将语音转换为文字信息,而且对语音内容也要作出正确响应[3]。在此,本文认为语音识别和语音理解意义等同,所以可用图1右侧部分流程可将语音识别过程。
目前语音识别技术应用中大部分都是小词汇量,词语间相互独立基于简单模板匹配工作原理的识别模式。针对这种典型的语音识别模式,原理流程路线图[4]如图2所示:
1.1 基于发音模型的语音信号产生模型
语音信号的产生是语音识别技术的基石,在语音信号处理的大部分过程中对语音信号产生模型有很强的依赖性。本文研究过程中,首先对人类发音过程进行了解:人类发音流程是首先肺部收缩,迫使气流通过声门和声道引起音频震荡产生[3]。根据人的声道三种不同激励方式,分别对应产生了三种被大家熟知的发音类型,分别是浊音,摩擦音或清音,爆破音。
语音信号可看做由线性系统受到激励信号的激励输出产生。如图3是基于发音模型的语音信号产生模型流程图:
如图3建立的语音信号产生模型中认为浊音是周期为N0的冲激信号,且N0=fs/F0(其中F0是基音频率,fs是采样频率)。清音认为是一个均值为0,幅值是正态分布的波形信号。参数Av,Au分别用来调节浊音和清音的幅值。
从已有语音识别技术研究结果可知,窗函数类型众多,使用不同形式的窗函数对短时分析处理语音信号结果有很大的影响。已知目前应用最广泛的窗函数是汉明窗,结合仿真实验分析可以看出:高斯窗函数的横向主瓣宽度最小,但其纵向旁瓣高度最高;汉明窗函数的横向主瓣宽度最宽,纵向旁瓣高度是三种窗函数中最低的。
2.3 端点检测
语音信号的起始点是语音信号处理的关键分界点,端点检测的目的就是找到连续语音信号中的信号起始点。常用的端点检测方法有两种,分别是短时平均能量和短时过零率[6]。当下流行的端点检测方法是短时平均能量和短时过零率两者的结合,称这种方法为双门限端点检测算法[7]。
在实际问题中通常采用两者结合解决问题。本文同样是采用两者结合的方法,利用短时过零率方法检测语音信号波形穿越零电平的次数,既代表的是清音;用短时平均能量方法计算第y帧语音信号的短时平均能量E(y),既代表的是浊音,进而实现可靠的端点检测。
3 特征提取
目前特征是语音信号预处理中的重要步骤。在实际特征提取中,较常采用的参数是线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。二者采用的均是时域转换到倒谱域上,但是出发思路两者不同。线性预测倒谱系数(LPCC)以人类发声模型为基础,采用线性预测编码(LPC)技术求倒谱系数;Mel倒谱系数(MFCC)以人类听觉模型为基础,通过离散傅利叶变换(DFT)进行变换分析。
其中k表示第k个滤波器,Hm(k)表示第k个mel滤波器组,f(m)为中心频率,m=1,2,…K,K表示滤波器个数。
经过仿真实验分析比较,可以分析得出Mel倒谱系数(MFCC)参数较线性预测倒谱系数(LPCC)参数的优点,优点如下:
(1)语音低频信号是语音信息的聚集区,高频信号相对低频语音信号更容易受到周围环境等的干扰。Mel倒谱系数(MFCC)将线性频标转化为Mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰[8]。LPCC参数是基于线性频标的,所以没有这一特点;
(2)MFCC参数无任何假设前提,在各种语音信号预处理情况下均可使用,但是LPCC参数首先假定所处理的语音信号是AR信号,对于动态特性较强的辅音,这个假设并不严格成立[8];
(3)MFCC参数提取过程中需要经过FFT变换,我们可以顺便获得语音信号频域上的全部信息,不需要多花费时间处理,有利于端点检测、语音分段等算法实现[8]。
4 训练与识别
训练和识别是语音识别的中心内容,有很多专家学者研究了一系列成果。语音识别实质是模式匹配的过程,而对分类器和分类决策的设计[9]又是模式匹配的核心。在现有的分类器设计[10-11]中,经常使用的有:动态时间规整(Dynamic Time Warping,DTW)分类器、基于人工神经网络(Artificial Neural Networks,ANN)分类器、基于高斯混合模型(GMM)分类器、基于Bayes规则的分类器、基于HMM分类器[12]等。
本文重点讨论语音信号预处理中技术及实现,对训练和识别技术不再做研究描述。
【参考文献】
[1]尹岩岩.基于语音识别与合成的低速率语音编码研究[D].上海师范大学,2013.
[2]伟伟.通信系统中语音质量评价的研究[D].北京邮电大学,2014.
[3]朱淑琴.语音识别系统关键技术研究[D].西安电子科技大学,2004.
[4]王伟臻.基于神经网络的语音识别研究[D].浙江大学,2008.
[5]钟林鹏.说话人识别系统中的语音信号处理技术研究[D].电子科技大学,2013.
[6]周刚,周萍,杨青.一种简单的噪声鲁棒性语音端点检测方法[J].测控技术,2015,(02):31-34.
[7]薛胜尧.基于改进型双门限语音端点检测算法的研究[J].电子设计工程,2015,(04):78-81.
[8]惠博.语音识别特征提取算法的研究及实现[D].西北大学,2008.
[9]张宁.基于决策树分类器的迁移学习研究[D].西安电子科技大学,2014.
中图分类号:TN912.34 文献标识码:A
1语音识别技术
1.1语音识别技术简介
语音识别技术主要分为两类,一是语音意义的识别,一种是目标声识别。第一个被称为语音识别,它是根据声音的成词特点对声音进一步分析,主要应用在人工智能,人机对话和快速输入等领域。通过访问声音的特征,从目标语音中进行提取,该项技术可以区分多目标语音的种类,确定目标,主要用于战场目标识别领域,海上侦察系统,预警系统,军事声纳识别,车辆声音识别,火车预警系统,动物个体的语音识别和家庭安全系统等。
科技研究人员通过对语音信号处理技术进行深入的研究,结果发现:人的听觉系统的声音配合具有独特的优势,它能准确地提取目标的声音特征,准确地辨别声音的方向和内容分类,所以基于仿生听觉系统的目标声识别技术备受现代前沿科技的关注。针对目标声音识别系统的研究工作成为了现代语音识别技术研究的一个热门方向,不少科技研究人员正在积极探索先进可行的仿生学理论,特征提取技术和语音识别技术。
1.2语音识别技术的研究现状
语音识别技术主要是通过对监测数据的声音特性分析,得到声音特性的样本文件。语音识别技术是一种非接触技术,用户可以很自然地接受。但语音识别技术和其他行为识别技术具有共同的缺点,即输入样本的变化太大,所以很难完成一些精确的匹配,声音也会伴随着速度,音质的变化而影响到信号的采集和结果的比较。
在语音识别中,语音识别是最早也是比较成熟的领域。随着越来越多的应用需求,识别声音并不局限于语音识别,人们开始深入研究目标识别技术的非语音识别,该项技术已经参照了成熟的语音识别技术的一部分,但由于各自的应用环境和实际的音频特征之间的差异,该技术还存在一些差异。
1.3语音识别技术的实际应用
在民用方面,目标声音识别系统可以应用于门禁系统,网络安全,认证,智能机器人,动物语音识别,电子商务和智能交通等领域。在智能交通领域,利用来自车辆识别模型的运动音频信号,可以实现交通信息的智能化管理。在智能机器人领域,机器人目标声音识别系统可以作为机器人的耳朵,通过环境声音识别并确定声音的方位,然后再反应外界的声音,因此可以将其当作家庭自动化服务系统和安全系统。在动物的语音识别领域,可以根据害虫声特征来区分害虫种类,根据不同的害虫采取不同的措施。在网络应用领域,在关于各种在线服务支持的语音识别技术新项目开发中,可以提高网络的服务质量,给人们的生活带来方便。现在,美国,德国和日本都开了电话银行,语音代替原来的密码和使用印章,简化了工作服务流程,提高工作效率。
在军事上,目标声音识别技术来自于第二次世界大战,在探测敌人的炮火和潜艇时,起着重要的识别和定位作用。但由于计算机技术,信号处理技术,光电检测和雷达检测技术快速的发展,使声探测技术发展得十分缓慢。直到现代的战争,研发了使用于战争中的三维信息,全方位定向,反欺诈、欺骗、干扰和反侦察、监视,在隐身与反隐身的现代战争中为国家的国防事业做出了不可磨灭的杰出贡献。通过电,磁,光学和雷达探测技术和主动检测技术来完成侦察任务已经不能满足现代战争的需求。在武装直升机技术成熟的当代,隐形轰炸机和其他高科技武器都有了反射功率,抗电磁干扰,反辐射的功能,特别是快速发展的数字技术和计算机技术,迫使各国为了实现对目标的定位跟踪和噪声识别而重新开始研究被动声探测技术,关注声检测技术。在未来战争中,武器装备发展的一个重要趋势是智能化、小型化,一个重要的特点是具备目标识别的能力,并根据不同的对象使用不同的攻击方法。
2听觉系统
为了设计一个更精确的目标声音识别系统,越来越多的学者开始深入研究仿生学领域。通过研究发现,人类的听觉系统在声音的物理方面具有独特的优势,声音特征可以准确提取目标识别中声音的方向,种类和含量,而且还可以提高抗噪声能力,所以基于人基于语音识别技术的听觉系统已经成为目前的研究热点。
人类听觉仿生学是模仿人耳的听觉系统和生理功能,并通过建立数学模型,根据数学分析原理得到的听觉系统。它涉及声学,生理学,信号处理,模式识别和人工智能等学科,是一个跨学科研究领域的综合应用。该技术已在军事,交通,银行,医疗治疗的许多方面取得了重要应用,是人类实现智能生命的重要研究课题之一。
人类听觉系统的处理能力大大超过目前的声音信号处理水平。从人类听觉系统的心理和生理特点视角,许多研究人员对接听过程中的语音识别进行深入的研究。目前,许多学者提出了不同的听觉模型,这些模型大多是一些基于语音识别和语音质量评价系统的听觉模型,模拟人耳听觉功能的生理结构,这些应用处理方法大大提高了系统的性能。
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)29-0155-04
Research Status and Development Trend of Russian Speech Recognition Technology
MA Yan-zhou
(PLA University of Foreign Languages, Luoyang 471003, China)
Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.
Key words: speech recognition; hmm;russian acoustic models; russian language models
俄语(Русскийязык)[1]是俄罗斯和联合国的官方语言,也是我国少数民族正式语言。在前苏联和俄罗斯使用,俄语在苏联时期具有很重要的地位,直到现在仍然有些独联体国家在广泛使用,虽然这些国家已经开始强调本地语言的重要性,但在这些国家之间依然使用俄语进行交流。全球有超过一亿四千万把俄语作为母语使用,有近四千五百万人以第二语言使用,使用俄语媒体的有3亿多人。我国俄罗斯族使用俄语进行交流,聚集地分布在新疆地区的阿勒泰、伊犁、塔城及内蒙古呼伦贝尔市的额尔古纳、满洲里等地,
语音识别(Speech Recognition)[2]是指在各种情况下,识别出语音的内容,让机器听懂人说的话,根据其信息而执行人的不同意图。它是一门交叉学科,涉及与计算机、语音语言学、通信、信号处理、数理统计、神经心理学人工智能、和神经生理学等学科。能够能满足不同需要的语音识别系统的实现已经成为可能,它的前提是模式识别、信号处理技术、计算机技术和声学技术等的发展。近年来,军事、交通等领域,尤其在计算机、人工智能等领域得到广泛应用。
俄语语音识别是一个有巨大潜力的研究方向,不仅能够为人们的生产生活、日常交往提供极大的便捷性和高效性,而且在政治、军事、经济等各个领域都有着重要的研究价值和应用前景。本文着重介绍语音识别发展历程、阐述俄语语音识别关键技术、分析俄语语音识别未来的发展趋势。
1 俄语语音识别的现状
俄语连续语音识别取得快速发展,利益于技术的进步。随着语音识别在技术层面的不断突破与创新,对英语的识别慢慢成熟,然后逐渐扩展到其他语种如汉语、俄语等。
1.1语音识别技术的发展
20世纪50年代,语音识别的研究开始借助机器来实现。1952年,一个特定人独立数字识别系统[3]由贝尔(Bell)实验室的Davis、Diddulph和Balashelk首次研制,该系统成功识别10个英语数字。1959年,英格兰的Fry和Denes利用谱分析技术和模板匹配技术,提高了音素的识别精度,建立了一个能够识别9个辅音和4个元音的识别系统。20世纪60年代,经过Faut和Stevens的努力,语音生成理论初步形成。动态规划方法[4]由苏联的Vintsyuk提出,并实现了对两段语音进行对齐。70年代取得一系列重大突破,基本实现孤立词识别。俄罗斯推进了模板匹配思想在语音识别中的应用;利用动态规划方法实现语音识别也由日本的科学家实验成功。20世纪80年代,语音识别研究的一个主要特点是由模板匹配方法向统计建模方法的转变,特别是隐马尔可夫模型[5-6]。尽管HMM众所周知,但是直到20世纪80年代中期HMM模型才广泛被世界各地的语音识别实验室熟悉和采纳。另一个新方向是利用神经网络解决语音识别问题,促进了该技术在语音识别领域的应用[7-9]。20世纪80年代后期,在DAPRA的支持下,对大词汇连续语音识别系统的研制也取得了显著的成果,研究机构主要有CMU、BBN、林肯实验室、MIT、AT&T贝尔实验室。
20世纪90年代以来,语音识别开始实用化研究,并取得了突破性的进展。其中算法的研究取得了非常明显的效果,并提升了系统的性能,如最大似然线性回归(Maximum Likelihood Linear Regression, MLLR),最大后验概率准则估计(MaximumA-Posteriori Estimation, MAP),以及用于模型参数绑定的决策树状态聚类等算法,这些算法的不断优化,也使得应用于实际的语音识别不断出现。最具有有代表性的系统有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform语音平台,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美国国家标准和技术研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不断推动下,各个研究机构不断尝试语音识别任务,目的是不断提高识别的性能。进入21世纪,在向广度和深度两方面,自动语音识别得到了更为广泛的研究。鲁棒性语音识别,进行了了细致的调研,特别是在置信度和句子确认方面非常有效,尤其对处理病句。在21世纪的前10年,信息技术领域最重要的十大科技发展技术之一就有语音识别技术的一席之地,人机接口关键的语音识别技术,已经成为一个具有竞争性的新兴高技术产业,它的实用化研究将成为未来的方向。
1.2俄语语音识别技术的发展
语音技术的研究主要集中在几个主要的语言,如英语,法语,西班牙语,汉语和西班牙语,一些其他语言尤其是东欧语言很少受到注意。但是近几年在俄罗斯,捷克,波兰,塞尔维亚,克罗地亚等俄语区对俄语语音技术的研究活动正在稳步上升。
俄罗斯科学院紧跟世界语音识别技术的发展,结合俄语自身的独有发音特点进行了卓有成效的研究并取得了一系列的成果。在开发声学,词汇和语言模型时采取特别重视俄语的细节,对于声学模型,采用知识和基于统计的方法来创建几个不同的音素集10。对于语言模型(LM),从不同网站自动收集新闻文本语料,用统计分析的方法将训练文本数据和语法相结合,计算不同情况下n-gram中单词的频率,优化n-gram模型,以建立更好的n-gram模型[11]。在基本语音识别单元的问题上采用距离最小信息不匹配的原则,建立语素级单元,显著减少误差概率[12]。
语料库是语音识别最基本的支撑,文本语料和口语语料都是一个语料库不可或缺的组成部分,任缺其一则语料库就不能反映该语言的完整信息,也没有办法在此基础上进行大词汇、非特定人连续俄语语音识别的研究[13]。俄罗斯对语料库的研究起步比较晚,在20世纪一直落后于世界语料库的发展,缺乏系统的理论研究和先进的实践成果。但近十年来,随着俄罗斯国家语料库建立和不断完善,俄语语音技术的研究正在慢慢兴起并取得了一些瞩目的成就。
国内对俄语语音的研究主要集中在教学方面。使用统计的方法,基于HMM对俄语语音进行建模和识别研究,目前还没有发现相关的文献记录。
2 语音识别技术
语音识别系统根据角度、范围、性能等差别,有以下的分类。
根据词汇量的大小分可为小词汇量(10至100)、中词汇量(100至500)和大词汇量(大于500)。根据发音方式可分为孤立词(isolated word)识别、连接词(connected word)识别、连续语音(continuous word)识别等。根据说话人特征可分为特定(speaker-dependent)说话人和非特定(speaker-independent)说话人。根据语音识别的方法不同进行了模板匹配、随机模型和概率语法分析等分类方法。
2.1 语音识别基本原理
通过计算机的辅助功能把输入的语音信号变换为对应的文本和命令,并且能够接受人类的语音、理解人类的意图,是语音识别技术研究的根本目的。语音识别系统核心是一套语音取样、识别、匹配的模式匹配系统[2],基本原理如图1所示。
语音识别系统由三个基本单元组成,它包含特征提取、模式匹配和参考模式库,虽然它是模式识别系统,但它的结构要比普通的模式识别系统要复杂,因为语音所包含的信息是复杂多样的语言信息,结构也是多变的。首先对输入的语音信号进行预处理,预处理包括适当放大信号功率并对增益进行有效控制,之后进行反混叠滤波以消除信号的干扰;然后将模拟信号转化为数字信号即数字化处理,便于存储和处理;然后进行特征提取,并使用一些参数来表示的语音信号的特性;最后对其进行识别。语音识别又分为两阶段:训练和识别。在训练阶段,利用特征参数表示语音信号的相应特征,得到标准数据即模板,将模板构建成一个数据库即模板库;在识别阶段,将语音特征与模板库中的每一个模板进行比较,找到了最相似的参考模板,这就是识别的结果。
2.2 HMM模型技术
语音识别早期采用的有矢量量化(Vector quantization, VQ)技术、动态时间规整(dynamic time warping, DTW)技术等,从处理难度上看,最简单的是小词汇量、特定人、孤立词的语音识别,最难解决的是大词汇量、非特定人、连续语音识别。当今语音识别系统采用的主流算法是HMM模型技术。
HMM模型的状态不能被直接观察到,但可以通过观测向量序列来观察到,这些向量都是通过某些特定的概率密度分布来表现为各种状态的,每个观测向量都是由一个状态序列产生的,这些状态序列具有相应的概率密度分布。HMM是一个双重随机过程:具有一定状态数量的隐马尔可夫链和显示随机函数集。HMM的基本问题及解决算法6-9
1)评估问题(前向算法)。
现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何计算观测序列的概率,进一步可对该HMM做出相关评估。利用forward算法分别以每个HMM产生给定观测序列O的概率进行计算,然后从其中选出最优秀的HMM模型。
经典应用例子就是语音识别。在HMM的语音识别描述中,每个单词对应一个HMM,每个观测序列全部由一个单词的语音来构成,单词的识别可以通过评估而选出最可能的HMM,此HMM由产生观测序列所代表的读音实现。
2)解码问题(Viterbi算法)
现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何寻找最优的隐含状态序列。此类问题比较关注马尔科夫模型中的隐含状态,在这些状态中虽然不能直接观测,但价值更大,可以利用Viterbi算法来解决。
实际例子是进行分词,分词问题可以用HMM来解决。这句话的分割方法可以看做是一个隐式的状态,而这句话可以被视为一个给定的条件,从而找出基于HMM的可能正确的分割方法。
3)训练问题(Baum-Welch算法即前向后向算法)
此时HMM的模型参数λ=(π,A,B)未知,对这些参数进行调整,使得观测序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解决。
2.3 大词汇量连续语言识别
在语音识别研究中难度和挑战性最大为课题应该是基于大词汇量的、非特定人的连续语音识别[13]。在词汇量大于1000词的时候,比较容易混淆的词数量增加,误识率约为基于小词汇量的、特定人的孤立词识别系统的50倍左右。而且还带来两个重要的、不易解决的问题:语流的切分和连续语音的发音变化。此时采用统一框架可以有效解决这个问题。大词汇量连续语音识别总体框架[14]如图2所示。
俄语语音信号分析后,形成特征向量,并通过字典识别模型,然后,根据语言模型的语法,将输入的语音与模板匹配,在句子层面进行组合。从俄语声学模型、俄语语言模型叙述大词汇量连续语音识别的过程。
2.3.1声学模型
设计俄语语音识别系统底层相应的HMM子词单元模型,需要充分考虑俄语声学和语音学的特征。俄语基本声学单元的选择是声学建模过程中一个基本而重要的问题。在俄语连续语音识别中,可供选择的基本单元包括词、音节、元辅音等。识别基本单元的选择一般基于语音学知识。
俄语字母是语音的书面形式,每个俄语字母都有自己的字母名称。元音字母的名称和读音相同,辅音字母的名称是在该辅音后加一个元音[15-16]。如字母с的名称为эс,字母б的名称为бэ等。字母名称通常用于读某些缩写词。俄语字母共有33个字母如表1所示。
根据俄语词的发音特征、音节的发音特征和字母的发音特征,选择音素作为子词单元,然后就可以进行HMM训练,首先用一种很粗糙的方法进行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自动收敛到一个最佳的模型,并实现了一个合理的子词分割。这样就可以初步完成俄语的声学建模,建设一个俄语语音参考模式库。
2.3.2 统计语言模型
自然语言处理问题必然要乃至统计语言模型[17],如语音识别、机器翻译、分词、词性标注等等。统计语言模型是计算概率的模型,即。使用语言模型,可以确定一个单词序列的概率,或给定一个单词的数目,它可以预测下一个最有可能的单词。
那么如何计算一个句子的概率呢?给定句子(词语序列),它的概率可以表示为:
由于上式中的参数过多,因此需要近似的计算方法。下面介绍适用于俄语的n-gram统计语言模型。
n-gram模型即n-1阶马尔科夫模型,首先假设:当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为:
当n值为1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率。N取值越大,模型越准确但计算越复杂计算量越大。在俄语语言模型的建立过程中,采用最多是二元模型和三元模型。
2.3.3 连续语音识别系统的性能评测
评定连续语音识别系统的优劣,观测系统的性能,一般都是针对不同的识别任务,不同的任务单词库和任务语句库,需要不同的评价标准。如果要想粗略地评估某个系统,可以从两个方面去考虑,一是系统识别任务的难易程度即复杂性;另一个是采用该系统的识别系统的识别方法对该难度的识别任务的识别效果即识别率。在连续语音识别系统中,通过对音素、音节或词的识别率进行识别性能评价,常用的系统参数是正确率(正确率),错误率和识别准确率。
其中的正确数、转换数、插入数和脱落数,采用主观的方法来目测,马可以通过统计的方法来得到。
2.4 HTK工具
语音识别过程涉及的算法复杂,其中最为著名的HTK由剑桥大学研发,主要用来建立基于HMM的大规模连续语音识别系统。该软件集为开放源代码,可以在UNIX/Linux和Windows环境下运行。HTK提供了一系列命令函数用于语音识别,包括一系列的运行库和工具,使用基于ASNIC模块化设计,可以实现语音录制、分析、标示、HMM的训练、测试和结果分析。整个HTK的工作过程包括数据准备、模型训练和识别过程。
3 语音识别的应用
随着计算机技术的进步、算法的不断优化、信息处理技术的智能化,俄语语音识别技术的发展会越来越光明。应用的范围也会越来越广,可能会出现一些新的应用。
1)俄语语音信息检索
网络技术和多媒体技术的迅速发展,数据量急剧增多,如何在海量数据中挑选出有用的信息,并进行相应的分类和检索,对合理地利用信息资源具有重要的意义。多媒体检索技术应运而生。
2)俄语发音自学技术
非母语语言学习成为目前教育领域的一个热点,而自学是语言学习的一个有效途径,它具有不受时间和空间限制、灵活方便的特点,一种称为计算机辅助语言学习的技术诞生了。有几个普通问题和关键技术是必须要考虑和解决的:标准发音语料库和非标准发音语料库、学习者发音的分级标准、语音对齐、衡量发音质量的评判标准和发音矫正。
3)基于俄语语音情感处理
人与人的交流,除了语言信息外,非语言信息也起着非常重要的作用,包含在语音信号中的情感因素[18],也反映了信息的一个方面。情感的分析和识别也是一个非常困难的研究方向。
4)嵌入式俄语语音识别技术
后PC时代智能终端的飞速发展,为人机之间的自然、快捷交互提供了可能。当前嵌入式语音识别的应用领域还比较有限,未来应用可能会更加广泛。
4 总结
语音识别技术的实用研究是一项极具挑战性的工作,虽然经历了近半个世纪的发展,取得了一些突破性的进展。语音识别技术在俄语方面的应用更是如此,不仅要解决语音识别技术本身的问题,还要解决高质量的俄语语音语料库和文本语料库的问题,同时还要解决各种算法与俄语适应和匹配等其他问题,如俄语自然语言的识别与理解、俄语语音信息的变化范围与幅度、俄语语音的清晰度、俄语语音发音与环境噪声及上下文的影响等等。虽然面临诸多困难,但是随着人类文明的不断发展与科技的不断进步,相信这些问题会在不久的将来逐一得到解决,展现在人们面前的是更加流畅、更加智能的人机交互界面。
参考文献
[1] 赵力.语音信号处理 [M].北京:机械工业出版社,2011:191-215.
[2] 韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2013:241-255.
[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.
[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.
[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.
[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.
[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.
[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.
[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.
[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.
[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.
[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.
[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.
[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.
[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.
语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。
嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。
对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。
语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。
笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。
1 硬件平台
本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。
该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。
UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。
2 嵌入式语音识别系统比较
以下就目前基于整词模型的语音识别的主要技术作一比较。
(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。
DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。
DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。
(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突况。因此,HMM算法具有良好的识别性能和抗噪性能。
基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。
在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。
(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。
3 基于HMM的语音识别系统
下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。
3.1 前端处理
语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。
模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。
特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。
特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。
3.2 声学模型
在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:
πi=P{X0=Si},i=1..N
以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:
系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:
Pxn=Si{On}=P{On|Si}
因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。
在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。
其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。
由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。
DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。
笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。
3.3 识别性能
笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。
表1 汉语数码识别率
DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。
表2 59词命令词集识别率
DOIDOI:10.11907/rjdk.162740
中图分类号:TP319
文献标识码:A文章编号文章编号:16727800(2017)005005703
0引言
随着智能自动化技术的迅速发展[14],智能化研究越来越受到人们关注,在日常生活中的应用需求也日益增多[56]。在书房、办公室等场所中,书籍一般是由人工查找并取出的,在一定程度上影响了人们查阅书籍的时效性。如果能设计一种识别语音查找并推出书籍的书架,将解决人们在书房中对书籍定位难、查找耗时长等问题。
在图书查阅过程中,书籍定位是较为常见的问题之一。针对这类问题,张郁松等[7]以物联网图书馆智能书架的结构化、通用化设计为目标,利用超高频(UHF)射频识别(RFID)技术,设计了一种具有实时检测与定位功能的智能书架,较好地提高了书架工作效率;舒远仲等[8]基于改进的RFID室内定位技术设计了一款应用于图书馆中的智能书架系统,将书架定位到每一层,精确到书架的最小单元格,并且降低了系统的复杂度和成本,较为有效地提高了读者借阅效率和馆员工作效率。
随着射频技术的不断发展,图书馆等场所中对图书的定位方式有很大改善,但是由于条件限制,语音识别定位书架在图书馆等禁止喧哗场所禁止使用。在可喧哗环境下,如家庭、办公室等场所中,语音识别可作为简单易用、无需接触、无需携带外部设备的定位方法,具有较好的应用前景。本系统首先将书籍信息存储到可扩展标记语言(XML)中,然后通过语音识别将语音信息与文本信息进行匹配,最后将定位结果发送至控制中心,通过电机执行动作完成推出书籍功能。
1硬件平台架构
本系统采用UPAtom510平台作为系统的语音识别终端,同时采用STC89C52单片机[9]作为系统的控制中心。由于系统功能需求,开发平台需要扩展外部设备。因此,除选用UPAtom510平台和STC89C52单片机外,还需外接话筒、TB6600步进电机驱动模块与42BYGH47401A步进电机,作为整个系统的硬件平台架构。
系统采用UPAtom510平台作为识别终端,该平台是北京博创科技有限公司针对嵌入式系统和微机原理课程研发的教学与实验平台。目前在UPAtom510上已经成功移植了Ubuntu、WinCE和Windows XP等操作系统。根据系统功能需求,在该平台上搭建了Ubuntu操作系统,并使用QT开发工具完成了人机交互界面的开发。UPAtom510平台底板如图1所示。
电机选用42BYGH47401A步进电机[1011],该电机为两项四线步进电机,电流1.5A,输出力矩0.55Nm。此模块有两种用途:书籍定位以及将书籍从书架中推出,方便用户取书。
本系统采用TB6600步进电机驱动器,它具有如下特性:输入电压为DC9~42V,可以驱动42BYGH47401A步进电机正常转动;含有拨码开关,针对不同电流要求,具有不同选择;模块上集成大面积散热片,具有较好的散热效果,可满足实际应用需求。
智能书架的硬件连接仿真结果如图2所示,智能书架的模拟三视效果如图3所示。
2系统框架设计
本系统的框架设计主要利用话筒采集语音信息,并将语音传递给UPAtom510平台,UPAtom510平台经过语音识别后,将书籍位置信息发送给STC89C52单片机,单片机根据书籍位置信息给电机驱动器发送控制命令,电机驱动器控制电机转动,带动整个智能书架运行。书架在书籍定位后将书籍推出,使得该书架具有智能化、人性化的特点。系统框架如图4所示。
3语音识别方法设计
目前,常见的电子产品中的语音识别均由单片机(MCU)或数字信号处理(DSP)作为硬件平台来实现。这一类语音识别[1217]产品主要采用孤立词识别,一般有如下两种方案:一种是使用隐马尔科夫统计模型(HMM)框架设计的非特定人群识别,另一种是基于动态规划(DP)原理的特定人群识别。这两种方法在应用上各有优缺点。
1.引言
语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。目前大多数连续语音的非特定人语音识别系统都是基于HMM模型的。[1]
一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。
而随着时频技术的研究发展,使人们在进行信号处理时,可以将语音信号分解在一组完备的正交基上。从而,语音信号的能量在分解以后将分散分布在不同的基上。但是,语音信号是一种典型的非平稳信号,其性质随时间快速变化,在两个不同的时间瞬间,在同一个频率邻域内,信号可以有完全不同的能量分布。因此,有必要找到一种精确表示语音信号时频结构,便于特征提取的方法。[2]
立足于此,本文提出,通过平移窗口,用余弦基乘以窗口函数,构造出局部余弦基,分离不同时间区间,很适合于逼近语音信号。本文使用这种具有活动窗口特性的局部余弦基表示语音信号。为了减少计算量,并进一步提高局部余弦基原子时频分布的分辨率,采用匹配追踪(MP)算法分解信号,并结合时频分析技术得到最优局部余弦基原子的魏格纳-维利分布(WVD)[2],从而得到信号精确的时频结构[3],进行特征提取。此外,结合语音信号的美尔频率倒谱系数(MFCC)一起作为该信号的特征向量,通过隐马尔科夫(HMM)模型进行识别。实验证明。这种多参数语音识别算法提高了识别的准确度和速度。
2.局部余弦基建模
通过光滑地划分时间序列为任意长度的子区间(如图1),可使每一个时间段分别由重叠正交基表示,而整个时间序列的基函数又构成时频平面的正交铺叠,因此局部余弦变换对在不同时间段有不同的波形的语音信号有很强的针对性。
图1 重叠窗口划分时间轴
Figure1 lapped window divides time axis
图1中为重叠窗口函数[3]:
(1)
式中为单调递增的轮廓函数,定义为[3]:
(2)
局部余弦函数族构成了实数轴上平方可积函数空间的规范正交基:
(3)
式中为窗口支集伸缩参数;为第P段时间起点;n()表示正交基序列号。
语音信号可表示为:
(4)
是余弦基原子,。其中是窗口支集边界参数,为窗口支集伸缩参数,是轮廓函数的尺度参数,这保证了窗口支集只与相邻的具有适当对称性的窗口重合,达到局部余弦基精确覆盖整个时频平面的目的。
3.匹配追踪法选取最佳基
由Mallat和Zhang引入的匹配追踪算法运用贪婪技巧减少了计算的复杂性。它从局部余弦基构成的冗余字典中一个一个挑选向量,每一步都使信号的逼近更为优化。
MP算法将信号分解成一簇时频原子的线性表达,这些原子选自高冗余度的函数字典中,且最好地符合内在结构。假设函数集是Hilbert空间中一个完备字典,满足,最优的M阶近似为:
(5)
设由M个时频函数近似的信号与的误差最小,表达式如下:
(6)
其中代表所选函数的索引。
首先按照某个选择函数(与的内积最大)逐个挑选出时频函数,分解为:,设初始输入信号为初始残差信号,表示f(t)在方向上近似后的冗余部分。
假设已有表示经过前M-1次迭代后,中未表达部分:选定为最匹配的时频函数,按如下公式分解为:
(7)
由于每步中与正交,如果字典是完备的,则迭代收敛于f,满足:
(8)
这样,可估算出(4)式中局部余弦基原子的参数。
文献[4]中提出,选出最匹配信号的基,对每一个基求出其WVD分布,信号的WVD分布就表示其最优基的WVD的线性组合,这样就消除了交叉项的影响。由此得到的WVD分布:
(9)
是局部余弦基字典中被选中的最优基的WVD分布。将等式左边第二项交叉项组合去除,这样在时频面上就得到了干净的时频表示:
(10)
在语音信号稀疏分解过程中,每步分解都要从过完备原子库中选出与待分解语音信号或语音信号分解残余最为匹配的原子,原子是由参数公式(4)决定的。因此语音信号稀疏分解所得原子的参数可作为语音信号的特征。此外,根据公式(10),使用匹配追踪法选取的最佳基的WVD分布,含有该语音信号重要且独特的信息,也可作为该语音信号的特征。
4.基于HMM的语音识别算法
特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长1/2。本文为了方便做MP,采用的帧长为512点(32ms),帧移为256点(16ms)。特征的选择需要综合考虑存储量的限制和识别性能的要求。通常的语音识别系统使用24维特征矢量,包括12维MFCC和12维一阶差分MFCC。本文提出的多参数语音识别算法,在此基础上增加了原子参数公式(4)和最佳基的WVD分布公式(10),这两维特征,构成26维特征矢量。对MFCC和语音信号能量的WVD分布分别使用了倒谱均值减CMS(Ceps-trum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性[5]。
在HMM模型中,首先定义了一系列有限的状态S1,…,SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:
(11)
以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:
(12)
且满足:
(13)
系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布P称为输出概率矩阵,只取决于On所处状态:
(14)
因为该系统的状态不为外界所见,因此称之为“隐含马尔科夫模型”,简称HMM。在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。
(15)
其中,M为使用的混合高斯分布的阶数;Cm为各阶高斯分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型[6]。在本识别系统中,采用孤立词模型,每个词条7个状态,同时包括首尾各一个静音状态;每个状态使用3阶混合高斯分布拟合。
5.仿真实验
5.1 提取最佳基的WVD分布特征矢量
构建局部余弦基字典,使用MP算法选取语音信号“A”的最佳基。如图2所示。得到的时频图既保留了余弦基原子高时频聚集性的优点,又削弱了WVD作为二次型时频表示所固有的交叉项的影响,得到了干净的时频面。其结果更精确的反映出语音信号在频率、音强方面的特征,具有良好的时频聚集性。
图2 “A“信号的WVD分布
Figure2 WVD of“A”
5.2 孤立词识别
在语音识别实验中,采用信号长度为1024的200个实际语音信号样本,其中100个用于训练,100个用于测试。该实验用以识别出语音信号”A”。实验利用WaveCN2.0录音系统进行样本采集,采样率为8kHz。得到语音信号的有效部分后,提取样本信号的MFCC参数作为语音信号的特征参数之一。Mel滤波器的阶数为24,fft变换的长度为256,采样频率为8kHz。MFCC的相关波形见图3。
图3 “A“信号的MFCC波形
Figure3 MFCC Waveform of“A”
然后利用MP算法将样本信号分解为300个原子,将所得原子的参数和最佳基的WVD分布,作为该语音信号的特征参数之二。见图2。通过HMM进行识别。
在实验中,设语音”A”类值为1,其他的语音类值为-1。HMM模型的状态数为7,高斯混合数为3。由第4节HMM训练的定义可知,重估过程中的输出概率是随着重估次数的递增而增加的,图4列出了“A”模型训练期间重估次数与总和输出概率的log值之间的关系。由图可以看出,“A”模型重估20次算法收敛,并且,输出概率与重估次数成正比趋势。
图4 重估次数与总和输出概率
Figure4 Iterations of EM and output like lihood
对语音进行上述HMM训练之后,将其模型参数存贮,获得了识别的HMM模型库。在识别阶段,对100个测试用数据进行语音识别,以检验本文系统的识别效果。如表1所示识别精度为89%,平均识别时间约为1.313秒,实验结果表明,系统识别率和运算速度都比较理想。
表1 识别结果
语音类型 识别次数 识别结果 识别精度
A 其它
A 100 92 8 92%
增加了局部余弦基原子的参数和最佳基的WVD分布作为特征参数,较单纯的使用MFCC作为特征参数进行HMM模型训练,识别率有一定提高,见表2。
表2 结果比较
特征参数 识别率%
MFCC、和特征参数 92
MFCC 89.5
6.结语
本文在传统基于HMM模型的语音识别基础上,通过匹配追踪算法,提取出最佳基的原子参数和WVD分布。二者与MFCC一起,作为本文提出的多参数语音识别算法的特征向量。然后选择了大量孤立词样本进行仿真实验,针对非特定人孤立词进行语音识别。结果表明,基于HMM和匹配追踪的多参数语音识别算法,可提高语音识别的速度和准确度,有一定的实用性。但是,由于算法的复杂性增加,运算量相应增大,简化算法运算量仍是需要深入研究的课题。
参考文献
[1]何方伟,青木由直.DP动态匹配算法实现语音的实时识别[J].数据采集与处理,vol.4,no.1,Mar,1989.
[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.
[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.