1、“.....即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着 定的语言意义,语言依靠语音实现它的社会功能。语音是人们交流思想和进行社会活动 的最基本手段,因此我们要对语音信号进行处理分析,优化人类通信交流。语音信号处理 包括语音通信语音增强语音合成语音识别和说话人识别等方面。语音信号的好坏 语音识别率的高低,都取决于语音信号处理的好坏。因此,语音信号处理是项非常有 意义的研究课程,而语音端点检测是语音语音信号处理中非常重要的步。 语音端点检测是语音分析合成和识别中的个重要环节......”。
2、“.....从而只存储和处理有效语音信号。有效的端点检 测不仅可以减少数据的存和处理时间,而且能排除无声段的噪声干扰。端点检测的困难 在于无声段或者语音段前后人为呼吸等产生的杂音语音开始处的弱摩擦音或弱爆破音 以及终点处的鼻音,这些使得语音的端点比较模糊,需要综合利用语音的各种信号特征, 从而确保定位的精确性,避免包含噪音信号和丢失语音信号。近年来出现了很多种端点 检测的方法如短时能量短时过零率传统的双门限法倒谱特征的检测方法谱熵的 检测方法法分形法等。本文根据语音和噪声和静音在能量过零率倒谱距离信息 熵值和分形维数等特点的不同来进行语音端点检测,在这些算法中在纯语音和高信噪 比的情况下都检测得比较好,但在低信噪比下有些算法检测结果就不尽人意。 尽管语音端点检测技术在安静的环境中已经达到了令人鼓舞的准确率,但是在实际 应用时由于声的引入和环境的改变通常会使系统性能显著下降。研究表明,即使在安静 的环境中......”。
3、“.....因此,作为语音识别系 统的第步,端点检测的关键性不容忽视,尤其是噪声环境下语音的端点检测,实验室 的研究结果与复杂的实用环境下的语音端点检测仍存在定的差距,它的准确性很大程 度上直接影响着后续的工作能否有效进行,如何准确地检测出带噪语音的端点至今仍是 个难题。 研究背景及意义 语音是语言的声学表现形式,语言是人类特有的功能,声音是人类常用的信息交流 工具,通过声音传递信息是人类最重要最有效最准确最方便最自然的信息交换 的方式。语音信号处理是门涉及面很广的交叉科学,包含计算机科学语音学语言 学声学生理学心理学和数学等诸多领域的内容。随着现代科学的蓬勃发展,人类 社会越来越显示出信息社会的特点,犹如衣食住行对于人类是必要的样,通信 和信息交换也成为了人类社会存在的必要条件,不但在人与人之间,而且在人与机器之 间每时每刻都需要进行大量的信息交换。让计算机听懂人类的语言,是人类自计算机诞 生以来梦寐以求的想法......”。
4、“.....计算环境的日趋复杂化,人 们越来越迫切要求摆脱键盘的束缚。在电子计算机和人工智能机器的广泛应用中,人们 发现,人和机器之间最好的通讯方式是直接进行语言通讯,实现人机自由对话,赋予机 器以听觉,辨别话音的内容或者辨别说话人的身份,使机器能够按照人的意志进行各种 操作,把人类从繁重或危险的劳动中解脱出来。用现代手段研究语音处理技术,使人们 能更加有效地产生传输存储获取和应用语音信息,这对于促进社会的发展十分重 要。 语音技术的应用己经成为个具有竞争性的高新技术产业,它正在直接与办公交 通金融公安商业旅游等行业的语音咨询与管理,工业生产部门的语声控制,电 话电信系统的自动拨号辅助控制与查询以及医疗卫生和福利事业的生活支援系统等 各种实际应用领域相接轨,并且有望成为下代操作系统和应用程序的用户界面。语音 处理内容涉及到计算机科学模式识别信号处时能量函数可用来区分清音段和浊音段。值大的对应于浊音段,而值小的 对应于清音段......”。
5、“.....无语音信号的噪声能量很小,而语音 信号的能量显著增大到数值,由此可以区分语音信号的起始点和结束点。 语音信号的短时平均幅度定义为 和都反映语音信号的强度,但是其特性有所不同。在实际应用中往往很难保 证有很高的信噪比,而且在些特殊情况下,如当语音段的开始和结束都是弱摩擦音 爆破音或语音段末尾是鼻音时,这些音的短时能量般很小,往往与背景噪声处于相同 的电平。在这些情况下,只依靠短时能量或短时平均幅度来检测语音段的起止点常常会 把语音信号起始和末尾的这些音素漏掉。因此,提出了在短时能量的基础上结 合短时平均过零率的双门限端点检测算法。 语音信号的短时能量可用以下几种算法得到 它们分别为绝对值的累加平方累加和平方的对数的累加,本文采用的是绝对值的 累加进行计算的......”。
6、“.....而语音部分又 分成静音段清音段浊音段。短时能量函数可用来区分清音段和浊音段。值大的 对应于浊音段,而值小的对应于清音段。对于高信噪比的语音信号,无语音信号的 噪声能量很小,而有语音信号的能量显著增大到数值,由此可以区分语音信号 的起始点和结束点。 短时过零率 短时过零率表示帧语音信号波形穿过横轴零电平的次数。过零分析是语音时域 分析中最简单的种。对于连续语音信号,过零即意味着时域波形通过时间轴而对于离 散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定 义语音信号的短时过零率为 其中,为符号函数,即 过零率有三类重要应用 第,用于粗略地描述信号的频谱特性,就是用多带滤波器将信号分为若干个通道, 对各通道进行短时平均过零率和短时能量的计算,即可粗略地估计频谱特性。 第二......”。
7、“..... 第三,区分清音和浊音,对语音信号进行分析,发现发浊音时,尽管声道有若干个 共振峰,但由于声门波引起谱的高频跌落,所以其语音能量约集中在以下。而发 清音时,多数能量出现在较高频率上。高频就意味着高的平均过零率,低频就意味着低 的平均过零率,所以可以认为浊音时具有较低的过零率,而清音时具有较高的过零率。 当然,这种高低仅是相对而言的,并没有精确的数值关系。 本文在软件中实现求语音短时过零率的关键代码为 计算过零率 和短时能量样,短时过零率也是随机参数,对应于无声段清音段以及浊音段, 它们分别具有的短时过零率概率函数如图所示。 图短时过零率在清音无声和浊音三种情况下条件概率密度函数示意图 对于短时过零率,由于清音的多数能量出现在较高的频率上,因此清音的过零率较 高,而浊音语音具有高频跌落的频谱,所以浊音的过零率低,噪声的过零率大小处于清 音和浊音之间。短时过零率可以区别语音是清音还是浊音......”。
8、“.....如下图所示 图语音信号短时过零率波形图 从图中可以看出端点检测语音信号的过零率,在语音信号中清音段的过零 率情况,图中幅度变化反映了过零率次数的高低。另外,利用短时过零率还可以从背景 噪声中找出语音信号,判断寂静无声段和有声段的起点和终点的位置。在背景噪声较小 时用短时平均能量识别较为有效,而在背景噪声较大时用短时平均过零率识别较为有 效。 基于短时能量和短时过零率的双门限语音端点检测方法充分利用能量和过零率的 优点,使用过零率检测清音,用短时能量检测浊音,两者配合来进行语音端点检测。这 种方法在高信噪比时,能有效的检测出语音信号的端点,但是随着信噪比的下降,检测 的准确率下降,特别是在噪声很大时,完全不能检测出语音端点。 基于短时能量和短时过零率的双门限端点检测原理 双门限法是利用短时能量和过零率的乘积进行检测的。在基于短时能量和过零率的 双门限端点检测算法中首先为短时能量和过零率分别确定两个门限,个为较低的门 限......”。
9、“.....另个是较高的门限。当低门限被超过时,很有可能是由 于很小的噪声所引起的,未必是语音的开始,当高门限被超过并且在接下来的时间段内 直超过低门限时,则意味着语音信号的开始。 该算法的原理简述如下 对上述两种特征作个统计估计,得到两个门限值,利用短时能量检测浊音,短时 过零率检测清音,两者配合从而确定语音的端点。由于采集的声音信号中最初的短时段 多为无声或背景噪声,这样就可以利用已知为静态的最初几帧般取帧信号计 算其过零率阀值及高低能量阀值低能量阀和高能量阀。过零率公式 计算和时,首先计算最初帧信号中每帧的短时平均能量或平均幅度, 最大值记为,最小值记为。 本文在计算短时能量之前,先经过个滤波器,高通滤波器,此为预加重滤波器, 目的在于滤除低频干扰,尤其是或的工频干扰,将对于语言识别更为有用 的高频部分的频率进行提升,在计算短时能量之前应用该滤波器......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。