欢迎来到速发表网!

关于我们 登录/注册 购物车(0)

期刊 科普 SCI期刊 投稿技巧 学术 出书

首页 > 优秀范文 > 语音识别系统

语音识别系统样例十一篇

时间:2022-09-23 08:59:15

序论:速发表网结合其深厚的文秘经验,特别为您筛选了11篇语音识别系统范文。如果您需要更多原创资料,欢迎随时与我们的客服老师联系,希望您能从中汲取灵感和知识!

语音识别系统

篇1

在这个高科技的信息时代,计算机占着极为重要的地位,人机通信是人与机器之间进行信息通讯,使机器按照人的意愿工作,传统的人机通信是通过键盘、按钮以及显示器等机器设备实现的,在许多场合都不是很方便,其最理想的通信方式就是通过语音进行识别。实现人与机器通过自然语音的方式进行信息通讯,不仅可以简化日常工作,更可以提高工作效率,带给人们极大的方便。而实现这个理想最关键的部分就是语音识别技术。

1语音识别概述

1.1语音信号的产生

物体的振动产生声音,正在发声的物体叫做声源,声音在介质中以声波的形式传播。语音是指人的发声器官振动所发出的负载一定语言意义的声音,发音器官主要有肺部、气管、喉部、咽、鼻腔、口腔和上下唇,每个人的声道各不相同,从而各自发出的声音也不相同。

语音信号主要有模拟信号和数字信号两种表现形式。模拟信号是人直接通过耳朵听到的信号,是时间和幅值均连续的物理量,由于其数据量过大、有较多的随机因素等原因不能直接被作为计算机的识别信号。数字信号是时间和数值均离散的二进制数字量化的模拟信号,是计算机语音识别技术的基础。数字信号相比模拟信号有以下优点:可以实现很多复杂的信号处理工作;具有可靠性高、价格低廉、反应迅速等特点;有利于区分出干扰信号等。所以要想使计算机按照人类的自然语言要求工作,关键的就是将模拟信号转换为数字信号。

1.2语音信号的处理

根据讨论,若要对语音信号进行处理必须先对此信号进行预处理,即将模拟信号转换为数字信号,再整理、分析、理解转换后的数字信号,并过滤掉多余的信息。主要包括数字化、预加重和加窗分帧三部分。

数字化就是把语音模拟信号转换为数字信号的采样与量化过程,采样是在相同间隔的时间内抽取信号而得到离散的序列,并将其转换为数字。量化则是在有限的区域内分布采样后的信号。预加重是通过一个高通滤波器使频谱变得平坦,防止衰减作用,不受有限字长效应的影响。以“帧”为单位对语音信号进行截取,使信号有短时平稳的特征,加窗则可以让截取的信号波形更加平滑。

1.3语音信号的模块处理

在语音识别中,常使用的基本算法有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

1)隐马尔可夫模型

隐马尔可夫模型(HMM)在当前语音识别系统中占据主流地位。它是一种随机概率模型,其使用大大降低了模型的复杂度。早在20世纪六七十年代就开始研究的统计信号模型。HMM是在Markov链的基础上发展起来的,但实际问题要更为复杂,所观察到的事件与一组概率分布相关。它是一个双重随机过程,一个是Markov链,这是基本随机过程,它描述状态的转移;一个是随机过程描述状态和观测值之间的统计对应关系,观察者不能直接看到状态,而是由感觉感知到的,因此称之为“隐”Markov模型,即HMM。

2)人工神经网络法

ANN现在已经成为了另一个热点,是非线性系统,具有DTW和HMM没有的对比、概括、推理能力。

3)动态时间规整技术

DTW是模板训练和模式匹配中出现最早的技术,使用动态规划技术在孤立词语音识别中具有良好的成果,但是其计算量较大,很难被使用到现实中的语音识别。目前已经被其他的算法所替代。

2语音识别系统设计思路

语音识别技术正在不断的发展中,在硬件平台上实现语音识别以取代繁琐的工作成为其发展的必然趋势。本文就是对基于单片机的语音识别系统的研究。由于单片机本身存在着处理速度慢、存储能力不强大的缺陷,所以此次设计是基于孤立词的语音识别系统。

语音识别系统的模型库训练工作原理是:特定人的语音信号进入系统,系统对进入的语音信号滤波,目的是为了消除需要的语音频率之外的其他杂音,进而数模转换,将输入的语音模拟信号数字化,有利于计算机进行识别。数字化后的语音信号再通过预处理、加窗分帧。对于剩下的语音信号送入HMM模板与模板库进行训练和匹配,再将最佳的结果传输给用户。

3系统模块设计及系统测试

此次设计是基于单片机的语音识别系统研究,有以下几点要求:该系统必须使完整的语音识别系统,有简单的显示功能,提高系统的识别性能,体积尽量减小。

工作原理首先采集语音信号,输入完成后通过滤波采集需要的语音信号,再通过数模转换器进入控制器,再与标准语音库中的语音信号进行对比,找出最接近该段信号的语音,再将识别出的语音通过LCD显示模块显示给用户。

系统检测首先确认是否有按键按下,当检测到有按键按下时,表示系统开始运行,如果没有按下,则表示系统处于非工作状态,只有当有按键时,才可以工作。进而开始接收语音信号,首先对语音信号进行滤波消除杂音,然后通过数模转换电路,将模拟信号转换为数字信号,预处理、端点检测后,与事先存储好的信号进行比对,得到最后的识别结果,将识别出来的结果,送往LCD液晶显示器上显示出来,展现给用户。

此次设计通过MATLAB软件实现对语音信号的调试。在接收语音信号时,有可能产生外界的干扰噪声,这就需要我们通过一系列复杂的公式计算,对该信号进行处理,进而在送由单片机进行下一步的工作。

4结束语

语音识别技术是实现人与计算机进行直接对话,让计算机自动对人所说的话进行识别、理解并执行的技术手段。语音识别技术的应用已经成为一个被受关注的新型技术产业,它的实现能够简化人们在以往工作中的繁琐,未来语音识别还要向低成本、高性能方向不断发展。

篇2

一、引言

语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

二、语音信号分析与特征提取

1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。

2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:

篇3

1 引言

语音识别是信息处理领域的一个重要方向,语音识别通常又可以分为两种工作方式:一种是连续语音听写,这种方式需要语音识别引擎对语音听写过程中上下文以及相同相似发音的词语进行分析、做出判断,实现难度较大。另一种是命令与控制方式(command and control),在此种方式下,语音识别引擎可以通过对简短的命令语音进行识别,以便执行相应操作。

语音识别技术基础是非常复杂的。正是如此,它获得了世界上著名的公司与研究机构的青睐,语音识别技术正经历着日新月异的改变,其中一些产品已经取得较好的效果,用户可以在上述产品基础之上进行二次开发。

2开发图片语音识别系统的条件

语音识别技术的发展涉及人机交互,自然语言处理,人工智能。这使开发人员难以从底层进行应用开发,欣慰的是一些公司与研究机构已经推出他们的研究成果,并且提供了供开发人员使用的开发平台与接口。其中影响比较大的有微软的SAPI、剑桥大学的HTK,IBM的via voice开发平台。本文采用微软的Speech SDK5.1开发包,它不仅是一个免费的开发包,同时提供对中文的支持。

2.1微软SAPI简介

微软的 Speech SDK是基于 C O M 的视窗操作系统开发工具包。这个 SDK中含有语音应用程序接口( SAPI )、微软连续语音识别引擎(MCSR)以及串联语音合成(又称文本到语音)引擎(TTS)等等。SAPI 中还包括对于低层控制和高度适应性的直接语音管理、训练向导、事件、 语法、 编译、资源、语音识别管理以及文本到语音管理,其结构如图 l 所示。

图1 SAPI结构

SAPI API在应用程序和语音引擎之间提供一个高级别的接口。SAPI实现了所有必需的对各种语音引擎的实时的控制和管理等低级别的细节。

SAPI引擎的两个基本类型是文本语音转换系统(TTS)和语音识别系统。TTS系统使用合成语音合成文本字符串和文件到声音音频流。语音识别技术转换人类的声音语音流到可读的文本字符串或者文件。

2.2 在.net应用程序中使用SAPI的准备

安装SAPI 5.1语音开发包。

由于SAPI基于Windows平台,通过COM接口供.net平台调用,所以具体调用方法为:新建工程,在此工程的解决方案中单击右键,在添加/引用中选择 Microsoft Speech Object Library,并在程序中添加对SAPI命名空间的引用:using SpeechLib。

3 系统模型设计及实现

3.1 创立系统界面

 

图2 系统界面一览

3.2  使用SAPI语音识别核心类

ISpRecognizer类是支持语音识别的核心类,主要用于访问MCSR实现语音识别。在进行语音识别时,微软Speech SDK 5.1 支持两种模式的语音识别引擎:共享(Share)和独享(InProc)。在本系统中,我们使用共享型语音识别引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext类是语音识别上下文接口,它可以发送与接收消息通知,通过CreateGrammar方法创建语法规则。通过对它的两个事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重写,我们可以很轻松的得到当前语音识别结果。第一个事件对应的就是识别结果显示:1、第二个事件对应的就是识别结果显示;2、ISpeechRecoGrammar类是语法规则接口,定义语音识别引擎需要是别的语音类容。起语法规则可以分为听写型与命令控制型。听写型可以识别大词汇量语音,但是别效率与识别准确率较低。命令控制型有针对性的对特定语音进行识别,在效率与准确率上都非常高。

当然一个ISpRecognizer不管是共享还是独享,都可以有多个RecoContext与其关联,而一个RecoContext也可以与多个ISpeechReco  Grammar关联,每个ISpeechRecoGramma  r识别各自规定的内容。

 

图3 语音识别类对应关系

3.3  编写系统核心代码

通过读入外部Grammar配置语音识别引擎,外部Grammar文件以xml文件格式存储。具体形式如下:

ManegePic.xml

玫瑰

大象

狮子

老虎

仙人掌

珠穆朗玛峰

布达拉宫

貂蝉

十字军

世界杯

阿里巴巴

乒乓球

五星红旗

……

采用命令控制型Grammar是为了使语音识别结果准确有效,定义外部Grammar是为了保持以后系统的可扩展性。对于新输入的图片,只要将图片名字加入到 图片名字

中即可。

开始语音输入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//读入规则

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加识别最终事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加识别怀疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活规则 

}

其中识别最终事件是系统在完整处理输入音频之后得到的最后识别结果,怀疑事件则是因为系统在处理过程中的最相似识别结果。这两个事件在一些环境之下得到的识别结果不同。

识别怀疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

将系统在处理过程中的最相似结果显示在textBox控件之中。

识别最终事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 将系统最终结果显示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//显示识别结果的图片

}

Catch (Exception e)

{}

}

由于篇幅有限,这里仅仅给出了构建语音识别引擎与图片显示部分的代码。完 整的系统可以在Windows XP + vs2008环境中调试通过,实现基于.net和SAPI的图片语音识别系统。

4 结语

通过制作图片语音识别系统,对利用SAPI进行语音识别有了初步的研究和实践,该系统具有一定的扩展性,也可以作为子系统嵌入到其他系统之中。该系统的功能可以扩展到语音控制文件操作,比如打开/关闭文件,添加文件,可以制作一个不需要键盘鼠标只利用语音就可进行操作的软件系统。

参考文献:

篇4

中图分类号:TP319文献标识码:A文章编号文章编号:16727800(2013)0010010304

作者简介:王晓丹(1981-),女,硕士,延边大学工学院讲师,研究方向为语音识别、模式识别;金国哲(1983-),男,硕士,延边大学工学院讲师,研究方向为游戏软件。

0引言

语音识别是让机器自动识别和理解语音信号,并把语音信号转化为相应的文本或命令的技术[1]。语音识别技术的解决将不仅使计算机成为普通百姓得心应手的工具,而且对于许多机器的操作、生产过程的控制,还有通信、口语机器翻译等领域来说,语音识别都大有用武之地[2]。目前,信息产业发展迅速,方便、快捷、高效的电子产品越来越受到用户的青睐。语音识别作为人机交互的一项关键技术,具备了这样的特点,特别在一些特定的环境或是对于一些特定的人,语音识别可以带来很大的方便。语音识别系统实际上属于一种模式识别系统,它包括特征提取、模式匹配、参考模式库等基本单元,其原理如图1所示。

输入的模拟语音信号首先进行预处理,包括预加重、分帧处理、数模转换、自动增益控制等过程。为了从每一个词条中提取出随时间变化的语音特征序列,作为一个模型保存为参考模板,就要对预处理后的语音信号进行特征参数提取。待识别的语音信号同样经过特征参数提取后生成测试模板。对语音的识别过程即是将测试模板与参考模板进行匹配的过程,识别结果即是相似率最高的一个参考模板。对于输入信号计算测定,再根据若干准则和专家知识,来判决选出最终结果并由识别系统输出。语音识别系统设计要考虑服务对象、词表大小、工作环境、发音方式、任务性质等许多因素,不同的应用需要采用不同的方法实现,才能达到理想的效果[3]。本文所采用的朝鲜语紧急呼叫号码的语音识别系统采用后文所述的几个步骤和方法。

1预处理

本设计中对语音信号的预处理过程包括预加重、分帧处理及窗化处理。

1.1语音信号的预加重

采用预加重方法处理语音信号能补偿语音信号的固有衰落,而且能有效地消除唇辐射的影响[4]。该方法的传递函数为:H(z)=1-0.94z-1(1)

设S(n)为输入的语音信号,经过预加重后得到的信号为:

中找出语音的开始和终止点。确定语音信号的起止点能更好地对语音信号进行识别,从而提高系统识别率和获取到更好的语音特征参数。端点检测的常用方法有短时过零率、短时平均能量、基于熵的特征、短时频域处理等几种[6]。本文中端点检测部分选择短时平均能量和短时过零率相结合的方法。清音的过零率要高于浊音和静音部分,因此短时过零率可用于确定清音。而浊音和清音的时域能量要高于静音部分,所以短时时域平均能量可用于确定浊音。在进行语音检测时,首先找出哪一帧语音的能量超过能量门限,然后往前根据过零率确定语音的起点,同样方法可确定语音的终点。

2特征提取如何选择语音特征直接关系到最终的识别效果。每段语音经过特征提取后具有了各自的特征值,特征间的距离量度反映出语音间的相似度。因此特征选择的标准应使得异音字特征间的距离尽量大,同音字间的距离尽量小。同时,在保持高识别率的情况下,还应尽量减少特征维数,以减小特征参数的计算量。人耳对200Hz到5kHz之间的语音信号最为敏感,高音不容易掩蔽低音,反之则较容易,高频处的声音掩蔽的临界带宽较低频端小。因此本文的朝鲜语孤立词语音识别系统首先采用在Mel频率轴上均匀分布的三角形滤波器,设

图3语音识别仿真过程

Step3:对分帧处理后的每帧信号求MFCC系数。Step4:通过DTW算法求出测试模板与参考模板的特征参数,选择差值最小的作为输出结果。语音控制器选用“Cool Edit Pro V2.1”进行录音采样。Cool Edit Pro 是美国 Adobe Systems 公司开发的一款功能强大、效果出色的多轨录音和音频处理软件。该软件可提供多种特效为作品增色,如压缩、扩展、延迟、降噪、回声、失真等。并且可同时在几个文件中进行剪切、粘贴、合并、重叠声音的操作,还可以生成静音、噪音、低音、电话信号等。本文采样率为8 000Hz,声道为单声道,采样精度为16位。语音库需要对朝鲜语的“”、“”、“”、“”、“”这几个词进行录音采样。采集到的音频信号,经过Matlab提供的wav文件读写函数,以及声卡的录音和放音函数,可以实现某些语音信号处理工作。语音工具箱voicebox为实现语音识别提供了许多实用函数。本语音识别系统的文件包含15个模板语音文件,25个语音库文件和5个处理函数。

以下分别就5种韩国紧急电话号码进行了识别实验,并对结果进行了部分截图,实验结果包含模板波形图和测试结果。第一组是天气预报电话号码131;第二组是报警电话号码112;第三组是火警电话号码119;第四组是电话咨询号码114;第五组是海洋咨询电话号码。如图4和图5是分别对韩国火警电话119的采样后的语音波形图和识别结果。

通过对特定人朝鲜语呼叫号码的语音识别结果的分析,可以得出以下结论:①在语音库样本数量足够,相关被测人数适当的情况下,DTW算法能够有效地识别语音控制指令;②识别效果与测试内容紧密相关,对于、这类数字,该算法完全可以准确识别出结果;③对

于有连读发音的号码、、等,由于个人发音特点的差异,该算法会偶尔出现识别错误的现象,但错误率在6%以下。

5结语

本文实现了朝鲜语紧急呼叫号码语音识别系统的软件算法部分。其过程主要包括:语音预加重处理、短时能量和过零率两级端点检测算法进行端点检测、MFCC算法进行语音特征参数提取等。综合考虑环境、算法复杂度等因素,DTW算法能够既简单又有效地识别朝鲜语紧急呼叫号码。通过MATLAB仿真实验,验证了该算法识别朝鲜语词汇的准确率较高。出错的主要原因有:①静音部分过长和无静音时的差别;②朝鲜语发音规则决定个人发音特点的差异较大。这些问题都有待进一步研究。

参考文献:

[1]MOKBEL, CHAFIC E,CHOLLET,et al.Automatic word recognition in cars[J].IEEE Transactions on Speech and Audio Processing,2005:346356.

[2]陈尚勤.近代语音识别[M].成都:电子科技大学出版社,1991.

篇5

关键词: 拟人机器人; 双CPU; 语音识别系统; 硬件设计

中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2013)01-01-02

Design of hardware of speech recognition system in humanized robot

Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng

(North China of Technology, Beijing 100144, China)

Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.

Key words: humanoid robot; double CPU; speech recognition system; hardware design

0 引言

随着超大规模集成电路和数字信号处理器(DSP)的快速发展,DSP的应用越来越广泛,涉及到各个领域如语音处理,图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来,已研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确,满足了对信号快速、实时、精确处理的要求,所以很适用于语音识别。

1 拟人机器人语音识别方法概述

语音信号分析是语音识别的前提和基础,只有分析出可表示语音信号本质特征的参数,才可能利用这些参数进行高效的语音通信,才能建立用于识别的模板或知识库。语音识别率的高低取决于对语音信号分析的准确性和精确性,虽然语音信号具有时变特性,但在一个短时间范围内其特性相对稳定,因而可以将其看作是一个短时平稳过程。任何对语音的分析和处理均建立在“短时”的基础上,一般认为语音信号在10-30ms的短时间内是相对平稳的。

拟人机器人语音识别方法如图1所示,采集到的语音信号输入后,首先对语音信号进行预处理,预处理主要包括:语音信号电压放大采样、反混叠失真滤波、预加重、自动增益控制、分帧、加窗、语音增强、端点检测以及A/D转换等环节;然后是信号特征量的提取(本文对信号的特征量进行Mel频率倒谱系数[2](Mel-Frequency Cestrum Coefficients)处理);最后对建立好的参数模板进行对比,测试的依据是失真度最小准则,如本文用到的动态时间规整DTW[3](Dynamic Time Warping)。

2 系统硬件设计

通过针对拟人机器人的特点,对系统进行分析和方案设计,最终确定本系统的框图如图2所示。本系统的硬件基于一个以DSP(TMS320VC5416)为主处理器的硬件平台,硬件平台主要包括:语音输入输出模块、主处理器DSP模块、存储器模块、单片机MCU模块、485串口通信模块。其中语音输入输出模块实现了语音信号的采集和输出;主处理器DSP模块(TMS320VC5416)主要完成语音识别所需的计算,其性能能够达到实时处理的要求;存储器模块包括一片FLASH和两片SRAM,用FLASH作为DSP的可编程存储器,SRAM分别作为DSP的数据和程序存储器;单片机MCU模块完成对拟人机器人的运动控制;485串口通信模块实现单片机MCU和PC机之间的通信。

2.1 主处理器DSP模块介绍

TMS320VC5416(简称VC5416)是TI公司的C54X家族的成员之一,它是基于先进的改进哈佛结构的16位定点DSP。它具有C54X的共同特点,高性能低功耗,具有高达160MHz的主频,核心电压1.5V,运行于此频率时功耗仅为90mW;拥有一条程序总线和三条数据总线,片内集成有高度并行性的算术逻辑单元(ALU)、专有硬件逻辑、片内存储器和片内外设等。

篇6

自动语音识别研究起始于上世纪50年代,80年代最大突破是隐马尔科夫模型(HMM)的应用,语音识别研究重点从特定人、小词表、孤立词语音识别向非特定人、大词表、连续语音识别转移;90年代以来,语音识别在模型细化、参数提取和优化、系统自适应方面取得重大突破.进入本世纪,著名的研究机构和公司,如剑桥大学、IBM、CMU大学、微软、贝尔实验室等机构的大词表连续语音识别系统对特定说话人的识别率达到95%左右.面对中国未来市场,国外IBM、APPLE、MOTOROLA等公司投入到汉语语音识别系统的开发.

我国语音识别研究虽然起步较晚,但发展发展迅速,中国科学院自动化研究所、声学研究所及清华大学、北京交通大学等机构都开展了语音识别的研究,总体上,汉语连续语音识别的研究与国外先进技术相差不大。

实际环境对语音识别的声学噪声鲁棒性要求越来越高,因此,提取具有鲁棒性和较强区分能力的特征向量对语音识别系统具有重要的意义.目前常用的声学特征参数有基于线性预测分析(LPC)的倒谱LPCC、基于Mel频率弯折的倒谱MFCC及基于听觉模型的感知线性预测(PLP)分析等.

由于考虑到人耳的听觉特性,Mel倒谱系数或感知线性预测系数已经成为目前主流的语音特征向量提取方法之一,加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后,在大词汇量连续语音识别问题上取得不错的结果。为了使系统具有较好的鲁棒性,通常要对语音识别系统的前端进行预处理.

虽然语音信号是非平稳信号,但在一个小的时段内具有相对的稳定性,因此在对语音信号进行分析时,我们总是假定语音信号在一个时间帧(frame)内是平稳信号,这就是语音信号的短时分析假设。通常一帧大约为20ms左右。对一帧信号通过加Hamming 窗、Hanning 窗或矩形窗后再进行特征分析就可以得到相应的一组特征,然后通过把分析窗移动一个偏移(称为帧移,通常为一帧的1/2或1/3),然后进行下一帧的处理。

1.MFCC的计算

Mel频率倒谱参数(MFCC),着眼于人耳的听觉特性。人耳所听到的声音的高低与声音的频率并不成线性正比关系,从人类听觉系统的研究成果来看,人耳分辨声音频率的过程犹如一种取对数的功能,而Mel频率尺度则更符合人耳的听觉特性。

类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组。Mel频率和频率的关系如下:

Mel(f)=2595lg(1+f/700)

Mel频率带宽随频率的增长而变化,在1000Hz以下,大致呈线性分布,带宽为100Hz左右,在1000Hz以上呈对数增长。将频谱通过24个三角滤波器,其中中心频率在1000Hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000Hz以下为线性分布,1000Hz以上为等比数列分布。

图1 Mel三角滤波器

MFCC的具体计算过程如下:

1) 由原始信号计算其DFT,得到离散谱{S n n N} t ( ) = 1,2,..., ;

2) 三角滤波器的输出则为此频率带宽内所有信号幅度谱加权和。

l = 1,2,....,24

3) 对所有滤波器输出作对数运算

ln(y(l))l= 1,2,....,24

4) 作离散余弦变换(DCT)得到Mel频率倒谱参数(MFCC)。

i = 1,2,...,P,P为MFCC参数的阶数,取P=12.

2.PLP的计算

感知线性预测(PLP)技术涉及到听力、心理、物理学的三个概念:(1)临界波段频谱分辨率;(2)等响度曲线;(3)强度-响度功率定律。使用一个自回归全极点模型去逼近听觉频谱。5阶的全极点模型能有效地抑制听觉频谱中与话者有关的细节信息。与传统的线性预测(LP)分析相比,在强调听觉这方面,PLP分析更为合理。

PLP分析流程:

(1)使用FFT用对原始信号从时域变换到频域,得到功率谱 ;

(2)关键波段频谱分析(Critical-band spectral resolution):以不同于Mel频谱分析的新的临界波段曲线进行分段离散卷积,产生临界波段功率谱的样点.

(3)等响度预加重(Equal-loudness pre-emphasis):样值化的通过模拟的等响度曲线进行预加重

(4) 利用强度-响度幂律(Intensity-loudness power law)进行立方根幅度压缩

(5) 自回归建模(auto-regressive modeling):利用全极点频谱建模的自相关方法由全极点模型的频谱去逼近 。基本原理是:对Φ(Ω)进行逆DFT变换,产生自相关函数。前M+1个自相关值用于从Yule-Walker方程中解出M阶全极点模型的自回归系数。

3.实验结果

分别提取12维PLP和MFCC特征参数,1维归一化短时能量,并求其一阶差分及二阶差分,共39维MFCC和PLP特征参数.

以音素为声学建模单元,采用5状态的连续HMM模型(见图2),其中1、5状态只起连接作用,没有观测概率,第2、3、4状态有GMM概率分布,假设特征参数是相互独立的,所以规定协方差矩阵为对角阵。

图2 五状态HMM模型结构

声学模型的训练基于4007句朗读式的特定人男声语料,共2.84小时,结合藏语语言学和语音学的研究成果,对拉萨话中全部50个音素进行分类,共划分了38个音素类别集,对全部72个声韵母设计了72个类别集,根据其前后语境分别建立决策树问题集,生成决策树,生成三音子模型后逐步增加高斯混合度。

选择50句短句作为测试集,测试集与训练集为同一发音人,但发音文本完全独立,同时,测试集语料与语言模型的训练语料也完全独立,测试集共有885个单音节,其中界外词(OOV)25个,全部为紧缩音节。

当特征参数分别为PLP和MFCC时,实验结果如下(三音子triphone模型的状态数为584):

由藏语大词表连续语音识别的实验结果来看,PLP和MFCC的效果相差不大。

参考文献

[1] Lawrence Rabiner, Biing-Hwang Juang. Fundamentals of Speech Recognition[M].北京:清华大学出版社.1993

[2] 郑方,吴文虎,方棣棠. 连续无限制语音流中关键词识别的研究现状[C].第四届全国人机语音通讯学术会议,北京,1996

[3] 高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000,11(2):271-276

篇7

中图分类号:TP3 文献标识码:A 文章编号:1674-098X(2014)03(b)-0071-01

随着有关于嵌入式系统的软件和硬件技术的进步,语音识别系统得到了全面的应用[1]。由于嵌入式系统受到各种软硬件的约束,该系统通常运行的是特定的任务[2,3]。所以开发者可以优化软硬件资源、减小规模、降低成本。但这对于语音识别系统的效率和准确度有了更高的要求[4]。DTW算法与HMM等算法相比较而言,针对小词汇量语音识别系统,其准确率与HMM等复杂算法几乎相同。

1 DTW算法

动态时间弯曲(Dynamic Time Warping,简称DTW)是把时间规整和距离测度结合起来的一种非线性规整技术。设:

(1)参考模板特征矢量序列为:c0,c1,…,cp;

(2)输入语音特征矢量序列为:d0,d1,...,,dq p≠q。

那么,DTW就是要计算函数D,从而使c和d之间的差别最小。

2 DTW在线并行算法

2.1 算法描述

DTW在线并行算法对于并行性的小词汇语音识别系统特别适用。此方法第一步对问题分解,然后在多个运算单元中单独的计算已知模式和未知模式之间的距离,并且对每个运算单元进行的计算分解。在DTW运算时要预先分配大小一定的内存。最后一步是将每一个单元的运算结果输入到决策模块,得到最终结论。

算法框图如图1所示,按照时间顺序将计算出的未知语音特征矢量输入到各个DTW流水线。然后由决策模块依据各个流水线的计算结果以及其他信息得出结论。但由于每个参考模式的长度不同,各条流水线的计算时间是不同的,因此每条DTW流水线会设置一个完成标志位Pi(1≤i≤N),依据这些完成标志,决策模块对已经完成计算的流水线结果进行处理。同时该算法还可以通过识别历史来提前终止没有完成的计算步骤。

2.2 算法分析

令特征矢量的维度为l,未知模式的长度为k,参考模式的个数为n,参考模式的总长度为p,局部判决函数的水平跨度为w,流水线条数为b。流水线的距离矩阵A的窗口平均大小为wn/p,令t为特征向量的数据类型所占的字节数,则OP-DTW算法所需的内存为wnt/p Byte。当b≥n时,算法所需时间为经典DTW的1/n;当b

3 结语

该文对一种DTW在线并行算法进行了分析,该算法相对减少了由于数据引起的等待时间;提高了DTW的并行度,并充分挖掘出硬件的计算功能,减少处理的时间。由于DTW的适用性,该算法适合一维非线性数据的匹配问题。

参考文献

[1] 林常志.基于统计的语音识别方法分析报告[R/OL].(2003-12-26)[2009-06-13].http:///data/林常志语音识技术报告.net.

篇8

文章编号:1674-3520(2015)-09-00-03

一、课题背景

学校常会组织我们到贵阳市盲聋哑学校送爱心,与残障孩子亲密互动,今年也不例外。那些残章的孩子来到这个世界,只能用他们仅存的方式去感知世界万物,在他们的世界里只有一种颜色,那就是黑色。我不禁想,在学校还有老师的照拂,可他们总有一日要长大,要开启自己的人生旅程。要是我能为他们做哪怕一点点事,就算只是为他们的家庭生活提供一些帮助也是好的。我想,如果能利用我在机器人社中学到的传感器、电子电路、单片机等专业知识,对家庭电路进行智能化改造,让家庭的电路“聪明”起来,使他们能够听得懂主人的指令而进行相应的操作,那就可以对有残障的人和对一些不良于行的病人或老人的家庭生活都能提供很大的便利。于是,有了我的这个设计――基于LD3320的语音识别系统在家庭电路中的模拟应用。

二、模型设计

(一)模块功能

(二)模型组成

(三)主要电子元件工作原理与功能说明

1、LD3320语音识别芯片

LD3320语音识别芯片采用的是ASR(Auto Speech Recognitio)技术,是YS-LD语音识别模块的核心。它是对大量的语音数据经语言学家语音模型分析,建立数学模型,并经过反复训练提取基元语音的细节特征,以及提取各基元间的特征差异,得到在统计概率最优化意义上的各个基元语音特征,最后才由资深工程师将算法以及语音模型转换成硬件芯片并应用在嵌入式系统中。

LD3320有两种使用模式,即“触发识别模式”和“循环识别模式”。可以通过编程,设置两种不同的使用模式。

触发识别模式:系统的主控MCU在接收到外界一个触发后,启动LD3320芯片的一个定时识别过程,在这个定时过程中说出要识别的语音关键词语。这个过程结束后,需要再次触发才能再次启动一个识别过程。

循环识别模式:系统的主控MCU反复启动识别过程。如果没有人说话就没有识别结果,则每次识别过程的定时到时后再启动一个识别过程;如果有识别结果,则根据识别作相应处理后再启动一个识别过程。

根据本案模型的设计特点,采用语音触发识别模式。LD3320芯片最多支持50个识别条目,每个识别条目是标准普通话的汉语拼音(小写),每2个字(汉语拼音)之间用1个空格间隔。例如表1,只需要把识别的关键词语以汉语拼音字符串的形式传送进芯片,该芯片已封装了基于标准普通话的语音模型数据和语音识别算法,无需进行任何语音训练即可投入开发应用。

2、STM32单片机控制单元

本案模拟系统主控单元采用意法半导体ARM-Cortex架构的STM32F1系列超低功耗单片机作为控制核心。

该单元完成几大功能:

向LD3320模块提供时钟振荡信号,以驱动片上DSP(数字信号处理器 )工作;

通过SPI(串行外设接口)串行通信方式向LD3320模块写入预定义的控制命令拼音串,并读取语音模块返回的识别结果编码;

根据识别结果驱动负载电路(LED单元(发光二极管)、继电器单元)的动作。

当LD3320模块完成一次识别过程后,通过中断请求方式通知主控单元处理,主控单元获知中断请求后会暂时中止当前的任务执行,转而跳转到中断服务例程(ISR Route),在该例程中通过SPI总线从LD3320模块读取识别编码,根据识别编码的不同执行对应控制功能。通过点亮、熄灭指令对应发光二极管或驱动继电器接通主回路得到运行结果。

3、LED显示单元

本案模拟系统用六个共阳极发光二极管(LED)来模拟家庭中厨房、工作间、卧室、走廊、卫生间、阳台的灯泡开关状况,工作时主控单片机则根据语音命令,采用输出低电平方式进行驱动点亮。

4、继电器输出单元

继电器输出单元可接收主控单片机的高低电平控制信号以接通或断开主回路。主回路根据实际需求可以用于大电压,交、直流供电的负载驱动。本案模拟系统用继电器单元实现家庭电扇的通断控制。

(四)系统软件开发环境

本案模拟系统的软件开发只针对STM32F103主控单元进行,软件代码完成以下功能:

LD3320底层驱动(对其内部寄存器的读写、时序的控制);

STM32F103硬件单元和用户变量的初始化;

用户语音命令拼音串的写入;

中断服务ISR(完成负载电路的驱动控制)。

软件开发基于ARM公司的Keil开发环境,完成从代码编辑到编译、调试、烧写一系列过程。

(五)设备成本

三、设备实测

(一)控制命令

LD3320语音识别芯片中最多可以写入50条语音控制指令,可以根据用户需要定制个性化的语音控制功能。本案设备的设计初衷是为了探索LD3320语音识别芯片在家庭电路中的模拟应用,故只写入了比较基本的18条指令。

(二)设备测试

在写入程序,完成硬件连线并加电复位后,系统即进入运行状态。向系统说出控制命令(尽可能用普通话, 不过实测时对贵阳本地方言还是有较高识别率),比如说“厨房打开”、“走廊关闭”、“电扇启动”、“运行流水灯”等命令后,系统会根据识别结果执行对应动作,点亮/熄灭LED或者通/断电扇运行。

为了更好的检测语音识别效果,实验中选择多个不同音色的人在家庭(比较安静)环境下分别进行测试,每个词语测试50遍。部分非特定人的语音命令测试的正确识别数据比例见表4:由上表可知,在家庭(比较安静)环境下,对于语音命令的平均识别率可达到90%以上。

四、设备优势与应用展望

(一)设备优势

1、本案设备成本低、语音辨识率高、响应快速,可以直接安装于家庭电路中实现语音智能控制。

2、由于LD3320 可以动态编辑的识别关键词语列表,因此其可以应用的范围大大超过了那些不可以改变识别列表的芯片。

3、可以根据用户的需求进行控制命令写入,实现可定制、个性化的智能控制。

(二)应用展望

1、应对家庭生活突发状况

在本语音识别系统中只是初步尝试了对用电器通、断电控制,而在现在社会中有很多的空巢老人,他们独自生活,如果在家中出现意外或突发疾病,随时都有可能危及生命。如果在本案系统中可以添加“紧急呼叫”的语音控制,当出现突发状况时可以使用该功能触发电话自动拨打物管、救护车、亲属等重要联系人。或者该控制与小区物管相连,每当有人有紧急呼叫时,物管的终端紧急呼叫灯亮起,并触发扬声器发出警报声,使物管人员迅速到场解决问题。

2、实现家用电器的语音控制

(1)电磁炉/微波炉/智能家电操作

在现在的家电中,各种各样的设置越来越繁复。用户在使用过程中,还要不断地对家电进行功能切换。在引入LD3320 芯片后,可以用语音直接控制这些家电。比如用语音来控制电磁炉把火力调整到“煎炸”或者是“慢炖”。

(2)数码像框

数码像框中存放了许多的照片和视频,同时又具有多种播放的方式。一般是通过按键或者遥控器的方式来对其进行操作,但是这样的操作并不方便。在引入了LD3320 提供的语音识别功能后,用户可以最自然地用语音去点播想要显示的照片,或者改变数码像框的显示方式。使得这样的数码产品更加具有人性化的操作界面。

3、机顶盒/彩电遥控器

随着数字电视的普及,家庭中可以收看到的电视节目也越来越丰富。大家也就苦于在众多的频道中迅速选择到自己想要看的频道。在把LD3320 语音识别芯片集成进机顶盒/彩电遥控器后,用户只需要对着遥控器说出想要看的电视频道的名字,就可以快速地选择。比如用户可以说出“奥运体育”,就可以转到体育频道来观看精彩的体育比赛了。

4、智能玩具/对话玩具

在电视购物中曾经出现过可以人机对话的玩具,比如金福猪,金福狗等。这些玩具采用的语音识别只能支持固定的10 条左右的语音命令,比如“你好”,“我想听歌”等等。采用LD3320 芯片,可以利用其动态编辑识别关键词语列表的性能,让玩具实现及其复杂的对话脚本。避免了玩具的严重同质化。

(三)公共服务设施的语音控制

1、自动售货机、地铁自动售票机等销售型服务设施

在自动售货机、地铁自动售票机等销售型服务设施中安装语音操作模块。人们可以对着售货机说出要买的商品,比如“可口可乐”或者“面巾纸”投币后商品就自动售出。在北京、上海等大都市中,外地旅客较多,对地铁线路不熟悉导致买票时不知道票价也不知道如何购买。有了语音操作界面后,只需要对着售票机说出要去的地方或者想要到达的站点,根据屏幕提示放入纸币,就可以方便地买到车票。

2、公共照明系统、辅助设施的语音控制

在公共场合帮助残疾人士、行动不便的老人或小孩非接触地去控制公共照明系统或辅助设施(地下通道轮椅台等)的运行。

3、楼宇电视的广告点播

目前分众传媒等公司的楼宇广告设施,遍布几乎所有的写字楼,也在广告投放上取得了良好的效果。但是目前用户在接受广告时,都是被动地去接受信息。对于其中感兴趣的广告,只能是等待下次再看到时进行仔细地了解,没有办法进行主动式地广告查询。

引入LD3320 语音识别芯片后,用户可以用语音去方便地查询想要了解的广告信息。比如操作楼宇广告“重新播放”“上一条”来重新观看一条广告。或者“汽车”来点播想要看的汽车广告。

这样的语音操作,不需要增加额外的键盘输入和触摸屏输入,又可以让用户与广告充分互动,取得更佳的效果。

五、结语

使用LD3320 芯片可以在一定程度上完成这样的语音控制系统,给人们的生活带来更便利的语音交互界面。作为一种新的人机交互界面,会逐步地走入人们的日常生活,在适合用语音控制的地方给人们提供更多的便利。

参考文献:

篇9

中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)10-2339-02

Design and Implementation of FPGA-based Voice Recognition Dialing System

WANG Hong, HAN Fei, WANG Jian, MA Yan-ping, ZHONG Hui, LI He

(School of Computer Science, South-Central University For Nationalities, Wuhan 430074, China)

Abstract: This paper elaborates a much more efficent and more identifiable process of speech dialing system and crucial technology which based on Altera Cyclone Ⅲ 3C16 and Quartus Ⅱ, NiosⅡ9. 0IDE using improved speech processing and speech recognition algorithm.

Key words: FPGA; speech recognition; MPCC; HMM

1 系统的总体设计

系统由语音采集模块、语音识别模块和拨号模块三部分组成。语音信号采集模块由麦克风和音频编解码芯片TLV320AIC23B组成,它主要的功能是对外部语音进行采集并数字化;语音识别模块由预处理、端点检测、特征提取、训练和模式匹配等算法模块组成;匹配成功后,由拨号模块找出对应的电话号码,经DTMF发生器输出到电话线路上,实现语音控制自动拨号功能。系统的算法流程如图1所示。

2 语音采集模块

系统采用音频编解码芯片TLV320AIC23B对语音信号进行采集,使用该芯片时只需配置相应端口,芯片自动将外界语音信号转变成数字信号输出。

3 语音识别模块

语音识别模块不仅要进行训练和模式匹配,还要对采集到的语音信号进行诸如加窗、预加重、除噪处理,最后提取特征参数供匹配识别操作。该模块(如图2所示)所采用的语音识别算法全部用HDL描述,采用FPGA实现。

3.1 预处理

预处理包括预加重、分帧和加窗,它们的目的是去除噪声,加强有用信息,对语音输入测量仪器或其他因素造成的退化现象进行复原。

3.1.1 预加重

预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。

3.1.2 分帧加窗算法

语音信号是一种典型的非平稳信号,特性随时间变化,但在很短的时间(大概15ms)内是平稳的,其特性保持不变,因此,可以采用分帧处理,用帧来描述语音信号的特征[1]。分帧算法用DSPBuilder描述,再转换成对应的HDL[2]。其DSP Builder的实现如图3所示。

加窗的目的是使主瓣更尖锐,旁瓣更低。本系统选用汉明窗,公式如(1):

(1)

3.2 端点检测

系统用HDL描述端点检测,并且采用基于能量状态变迁的端点检测方法,将整个端点检测过程分为6个状态,其状态变迁取决于转换条件。能量状态变迁图如图4所示。

3.3 特征提取

经过端点检测后的语音帧用MFCC进行特征提取,对于经过预加重和加窗处理的语音信号,可以直接从FFT开始计算。我们采用Alter公司提供的FFT IP核。一般框架如图5所示。

3.4 HMM训练与匹配

系统的HMM训练采用经典的Baum-Welch算法,识别采用viterbi算法[4]。系统对原始的viterbi算法进行了改进,改进后的算法如下:

1)初始化 δ[1][1]= ∏[j]+b[j][O(1)],1QjQ4

2)递归 δ[t][j]=min[δ[t-1][i]+a[i][j]]+b[O(t)],2QtQT 1QjQ4

φ[j]=argmin[δ[t-1][i]+a[i][j]]2QtQT 1Qi jQ4

3)终止 p=δ[T][4]q[t]=4

4)路径回溯q[t]= φ[t+1][q[t+1]],t=T-1,T-2,…,1

算法表明,下一状态只停留在当前状态转移到它概率最大的那个状态,直至最后一个状态S4,如图6。

4 拨号模块

模式匹配成功后,找出与模板对应的电话号码,经过DTMF发生器输出到电话线路上实现语音控制自动拨号的功能。在拨号状态下,语音识别模块通过信号线和控制线将DTMF信号发送到电话机线路上,电话机读取存放在相应位置的电话号码并发送出去。

5 结束语

本文讨论了基于FPGA的语音识别拨号系统的设计和实现,对非特定人、孤立词等进行识别。系统实现的语音识别准确率高、效率加强,可应用于任何可编程逻辑器件中,为手机、座机及其它诸多应用中的语音拨号功能的实现提供了参考设计方案。

参考文献:

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93-97.

篇10

一、背景

不断的提升客户服务品质,持续的改善客户感知是企业在竞争中制胜的法宝。随着移动互联网的发展,引入新技术支撑客户服务系统由传统的被动、应答式客户服务向主动、开放、智能服务的转变成为必然趋势。

二、传统IVR客户服务系统存在的问题

1.IVR语音导航复杂冗长,用户体验差。传统的IVR客户服务系统中客户需要面对复杂、冗长、繁琐的IVR导航菜单,用户需要逐层听取菜单提示,根据引导一步步进行按键操作才能得到服务,这容易给用户造成较差的体验,传统的按键式IVR自动语音服务面临越来越明显的挑战。同时,由于用户不能获取便捷的自助服务,大量服务涌入人工座席,宝贵的人工座席资源大量投入于提供简单、重复、低价值的劳动中,使得呼叫中心的整体工作效率难以提升,运营成本居高不下,客户满意度也受到了影响。

2.传统IVR依靠主叫及DTMF信号实现客户识别及交互,使得用户与系统的交互受到很大的限制不利于“主动、智能”服务。

三、什么是语音识别技术

语音识别技术,也称为自动语音识别,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入。与声纹识别技术(Speaker recognition)及说话人确认不同,声纹识别技术尝试识别或确认发出语音的说话人,而语音识别技术尝试识别其中所包含的词汇内容。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

四、语音识别技术在智能客户服务系统中的应用

语音识别技术在电话信道上的应用已成为最重要的应用之一,因此在新一代客户服务系统中引入了语音识别技术作为用户的输入手段,客户可以直接用语音与系统进行交互,这样大大提高了工作效率,提升用户感知。

1.基于语音识别的IVR菜单扁平化智能应用。引入语音识别技术,创建智能IVR导航,使系统成为能听懂自然语言的互动式语音应答系统,将传统的IVR树形的按键操作,转换为扁平化的系统对话,使客户能直达原子业务节点接受服务,以缩短了通话时间,降低IVR业务节点放弃率,提升用户自助服务效果,提升客户体验,分流客户服务,减轻人工服务压力,提升人工服务价值。

2.与声纹识别技术结合对客户进行差异化服务。客户服务资源是宝贵的,将有限的客户服务能力高效的用在提升客户的感知上,需对客户进行差异化服务。准确的识别客户等级及客户服务内容的紧急程度是实现差异化服务的基础,语音识别技术结合声纹识别技术,能突破目前传统IVR客户服务系统识别仅能根据客户主叫号码及DTMF信号的限制,从服务内容,说话人识别的角度判定客户服务的等级,有效拦截的骚扰用户,提高客户服务资源的利用率。

3.基于语音识别的人工座席智能应用。在人工服务中,实现客户语音的“可视化”,完成客户需解决问题的词条及关键字的识别,辅助座席人员快速的进行相关知识库知识节点的搜索匹配,提高客户座席人员的工作效率和服务能力。

4.基于语音识别的质检评估应用。客户服务人员的质检、考核评估,通常是基于语音抽检方式进行,为了提高对服务质量的管控,通常需要进行大量的语音抽检,这需要占用了大量的人力资源。通过语音识别技术,对服务语音进行关键字及语气的识别匹配,实现系统自动质检检查,可有效提高质检检查的覆盖率,对关键服务质量问题进行有效过滤,减轻后台质检人员的工作量,提高质检工作的效率,提升服务质量的管控。

篇11

语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。

嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。

对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。

语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。

笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。

1 硬件平台

本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。

该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。

UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

2 嵌入式语音识别系统比较

以下就目前基于整词模型的语音识别的主要技术作一比较。

(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。

DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。

DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。

(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突况。因此,HMM算法具有良好的识别性能和抗噪性能。

基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。

在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。

(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。

3 基于HMM的语音识别系统

下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。

3.1 前端处理

语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。

模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。

特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。

3.2 声学模型

在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:

πi=P{X0=Si},i=1..N

以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:

系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:

Pxn=Si{On}=P{On|Si}

因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。

在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。

由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。

DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。

笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。

3.3 识别性能

笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。

表1 汉语数码识别率

DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。

表2 59词命令词集识别率