基于MATLAB的语音信号的端点检测㊣精品文档值得下载

基于MATLAB的语音信号的端点检测

而有语音信号的能量显著增大到数值，由此可以区分语音信号的起始点和结束点。短时过零率短时过零率表示帧语音信号波形穿过横轴零电平的次数。过零分析是语音时域分析中最简单的种。对于连续语音信号，过零即意味着时域波形通过时间轴而对于离散信号，如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号的短时过零率为其中，为符号函数，即过零率有三类重要应用第，用于粗略地描述信号的频谱特性，就是用多带滤波器将信号分为若干个通道，对各通道进行短时平均过零率和短时能量的计算，即可粗略地估计频谱特性。第二，用于判别清音和浊音有话和无话。第三，区分清音和浊音，对语音信号进行分析，发现发浊音时，尽管声道有若干个共振峰，但由于声门波引起谱的高频跌落，所以其语音能量约集中在以下。而发清音时，多数能量出现在较高频率上。高频就意味着高的平均过零率，低频就意味着低的平均过零率，所以可以认为浊音时具有较低的过零率，而清音时具有较高的过零率。当然，这种高低仅是相对而言的，并没有精确的数值关系。本文在软件中实现求语音短时过零率的关键代码为计算过零率和短时能量样，短时过零率也是随机参数，对应于无声段清音段以及浊音段，它们分别具有的短时过零率概率函数如图所示。图短时过零率在清音无声和浊音三种情况下条件概率密度函数示意图对于短时过零率，由于清音的多数能量出现在较高的频率上，因此清音的过零率较高，而浊音语音具有高频跌落的频谱，所以浊音的过零率低，噪声的过零率大小处于清音和浊音之间。短时过零率可以区别语音是清音还是浊音，它还可以从背景噪声中找出语音信号，如下图所示图语音信号短时过零率波形图从图中可以看出端点检测语音信号的过零率，在语音信号中清音段的过零率情况，图中幅度变化反映了过零率次数的高低。另外，利用短时过零率还可以从背景噪声中找出语音信号，判断寂静无声段和有声段的起点和终点的位置。在背景噪声较小时用短时平均能量识别较为有效，而在背景噪声较大时用短时平均过零率识别较为有效。基于短时能量和短时过零率的双门限语音端点检测方法充分利用能量和过零率的优点，使用过零率检测清音，用短时能量检测浊音，两者配合来进行语音端点检测。这种方法在高信噪比时，能有效的检测出语音信号的端点，但是随着信噪比的下降，检测的准确率下降，特别是在噪声很大时，完全不能检测出语音端点。基于短时能量和短时过零率的双门限端点检测原理双门限法是利用短时能量和过零率的乘积进行检测的。在基于短时能量和过零率的双门限端点检测算法中首先为短时能量和过零率分别确定两个门限，个为较低的门限，对信号的变化比较敏感，另个是较高的门限。当低门限被超过时，很有可能是由于很小的噪声所引起的，未必是语音的开始，当高门限被超过并且在接量和过零率各自优点来进行检测，根据上述方法进行实验仿真，程序代码在附录中给出，其仿真结果如下图语音信号的仿真结果上述实验结果较好地展示了双门限检测法的工作原理首先利用短时平均能量门限值先高后低定位语音端点的大致位置,之后再利用短时过零率门限寻找端点的精确位置,从中可看出实验效果还是基本让人满意的。分析总结语音信号端点检测是语音信号处理中非常重要的项预处理技术，因此是语音信号处理中不可缺少的步。本文主要围绕端点检测方法进行研究，详细阐述短时能量和短时过零率结合的双门限法，并用此方法进行实验仿真，取得了较好的实验结果。随着语音相关学科的发展和新兴技术的不断出现必将使得未来的语音系统逐渐智能化，而作为关键技术之的语音端点检测也将随之不断提高。如何有效地结合多种抗噪性能好的特征参数，使其更简洁完善精确高效鲁棒性好等将是今后研究的个重要方面。参考文献张震宇基于的语音端点检测实验研究浙江科技学院学报王建卫，曲中水，凌滨程序设计北京中国水利水电出版社，姚天任数字语音处理湖北华中科技人学出版社，何强，何英扩展编程北京清华大学出版社，杨行峻，迟惠生语音信号数字处理北京电子工业出版杜，吴镇扬数字信号处理北京高等教育出版社,郑君里，杨为理信号与系统北京高等教育出版社韩纪庆,张磊,铁然语音信号处理北京清华大学出版社赵力语音信号处理北京机械工业出版社,刘羽语音端点检测及其在中的实现计算机时代张雄伟,陈亮,杨吉斌现代语音处理技术及应用北京机械工业出版社,聂敏语音识别及其关键技术微波与卫星通信致谢在此感谢我的导师孙秋菊老师在本次毕业论文中耐心的指导，从毕业设计的开题，到基于语音端点检测算法的确定，以及在论文研究实验过程中及其论文的撰写，每步都倾注着导师的心血。经过几个月的努力，毕业论文基本完成了。在毕业论文过程中，使我学到很多新的知识，同时也加深了以前所学的知识，让我理解和学习了语音端点检测这项语音信号处理技术，积累了宝贵的经验。在完成论文的过程中导师耐心的指导和严谨的治学态度，精湛的学术造诣和诲人不倦的精神给我留下了非常深刻的印象，使我受益匪浅，下来的时间段内直超过低门限时，则意味着语音信号的开始。本文采用短时能量和短时过零率相结合的方法，利用短时能量和短时过零率两个门限来确定语音信号的起点和终点，目的是从采集到的语音信号中分离出真正的语音信号作为系统处理的对象。该算法的原理简述如下对上述两种特征作个统计估计，得到两个门限值，利用短时能量检测浊音，短时过零率检测清音，两者配合从而确定语音的端点。由于采集的声音信号中最初的短时段多为无声或背景噪声，这样就可以利用已知为静态的最初几帧般取帧信号计算其过零率阀值及高低能量阀值低能量阀和高能量阀。过零率公式计算和时，首先计算最初帧信号中每帧的短时平均能量或平均幅度，最大值记为，最小值记为。本文在计算短时能量之前，先经过个滤波器，高通滤波器，此为预加重滤波器，目的在于滤除低频干扰，尤其是或的工频干扰，将对于语言识别更为有用的高频部分的频率进行提升，在计算短时能量之前应用该滤波器，还可以起到消除直流漂移抑制随机噪声和提升清音部分能量的效果。其关键代码为,。文中能量门限调整代码为根据语音信号的实际情况对门限值进行调整，以便更好的对语音端点进行检测。其端点检测的流程如下所述开始进行端点检测之前，首先为短时能量和过过零率分别确定两个门限,其中分别为短时能量和过零率比较低的门限，其数值比较小，对信号的变化比较敏感，很容易就会超过。另外是比较高的门限，数值比较大，信号必须达到定的强度，该门限才可能被超过。低门限被超过未必就是语音信号的开始，有可能是时间很短的噪声引起的。高门限被超过则可以基本确信是由于语音信号引起的。整个语音信号的端点检测可以分为四段静音过度段语音段结束。程序中使用个变量来表示当前所处的状态。在静音段，如果能量或过零率超越了低门限，就应该开始标记起始点，进入过渡段。在过渡段中，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要个参数的数值都回落到低门限以下，就可以确信进入语音段落。而如果在过渡段中两个参数中的任个超过了高门限，就可以确信进入语音段了。些突发性的噪声也可以引起短时能量或过零率的数值很高，但是往往不能维持足够的长的时间，如门窗的开关物体的碰撞等引起的噪声。这些都可以通过设定最短时间门限来判别。当前状态处于语音时，如果两个参数的值下降低到低门限以下，而且总的记时长度小于最短时间门限，则认为这是段噪音，继续扫描以后的语音数据，否则就标记好结束端点，并返回。现以孤立检字的发音为例,说明双门限检测法的原理,如图所示。该方法需做出两级判断首先利用浊音的短时能量最大的特点,由能量定位语音的大致位置。根据语音短时能量设定个较高的门限,若信号的能量大于,则可确定个端点,并可认为这个端点之间是语音信号,这样相当于完成初判。再根据背景噪声的平均能量设定个比稍低的门限,如果信号的能量大于,则所对应的端点之间仍是语音信号,至此完成了第级判断。接下来进行第二级判断,由于语音的起点很可能是能量很弱的清音,此时还采用短时能量来区分清音和无声显然已不合适,应采用过零率。根据短时过零率设定个新的较低门限,求越过该门的过零率,从两点分别向前向后搜索,找到短时平均过零率与门限的个交点,这个点就是语音的真正起点和终点。图双门限检测法原理示意图双门限语音端点检测实验仿真及分析实验环境及参数设置双门限语音端点检测是在软件环境下进行仿真实验。文中语音信号样本是在实验室安静环境下采用麦克风进行录音，以格式存储为较纯净的语音样本。在语音端点检测之前首先要对被测的语音信号进行预处理等，包括分帧加窗等。文中加窗，通过特性为的滤波器预加重。对其他参数进行设置，如设置语音帧长度，帧移长度，取，门限阀值设置等。实验分析基于短时能量和短时过零率的双门限语音端点检测算法是结合短时能限以至于自适应门限，使得算法精度不断得到提高。本文主要研究内容由于语音端点检测是语音识别和语音增强等语音处理重要的步，语音端点检测的好坏直接影响到下步工作的进行，所以本课主题要研究语音起点和终点的检测，以短时能量和短时过零率相结合的双门限语音端点检测算法进行语音端点检测。语音信号处理语音信号特点语音信号是随时间变化的维信号，由连串的音组成，各个音的排列有定的规则。语音具有声学特征的物理性质，声音质量与它的频率范围有关，语音信号的频率般是在范围内，随着带宽的增加，信号的自然度将逐步得到改善。语音信号本身的冗余度是较大的，少数辅音清晰度下降并不明显影响语句的可懂度，比如通常的模拟电话带宽只有。语音信号的特性是随时间变化的，所以是种典型的非稳态信号。但是，从另方面来看，由于语音的形成过程与发音器官的运动密切相关，这种物理运动比起声音振动速度来讲要缓慢得多，因此，语音信号常常可假定为短时平稳的。研究表明，在的范围内，语音信号的频谱特性和些物理特征参数基本保持不变。这样，我们就可以将平稳过程的处理方法和理论引入到语音信号的短时处理中。因此，短时分析技术贯穿于语音分析的全过程。语音信号预处理为了消除因为人类发声器官本身和因些采集语音信号的设备等所引起的混叠高次谐波失真现象，在对语音信号进行分析和处理之前，必须对其进行预处理。语音信号的预处理应尽可能地保证处理后得到的信号更均匀平滑，且能提高语音的质量。预加重在进行语音信号数字处理时，为了获取段语音信号的时域波形，首先要将语音信号转换成电信号，再用转换器将其变换为离散的数字化采样信号。己经数字化的语音信号将依次进入个数据区。由于语音信号的平均功率受声门激励和口鼻辐射影响，高频端大约在以上按倍频程跌落，即倍频或倍频，所以求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分的难求，为此要在预处理中进行预加重处理。目的是提升高频部分，使信号变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，而且预加重零点与辐射零点将抵消声门波的影响，使语音信号中只包含声道部分，以便于频谱分析或声道参数分析。图表明了语音预处理的过程