基于ICA的语音分离技术研究㊣精品文档值得下载

基于ICA的语音分离技术研究

时，提取特定话者的语音。语音分离问题来源于著名的鸡尾酒会问题，这个问题可以被描述成在复杂的背景噪声和多个人交谈的情况下，能够集中注意力于个人说话内容的能力盲信号分离技术是目前的主要研究方向。语音分离技术的研究具有重要的意义在语音识别系统的前端进行语音分离，可以极大的提高识别系统在实际环境中的分辨能力在电话会议系统中，由于麦克风记录的是混合语音是感兴趣说话人的语音质量大大降低，语音分离技术可以用来提高所感兴趣的人的语音质量，从而改善电话会议的效果另外语音分离算法可以实现声源定位，确定说话人的个数，这方面的研究对智能机器人的智能化研究具有十分重要的作用，。语音分离技术的的发展和现状语音增强的经典算法是谱减法，它在检测到目标语音处于不活动状态的情况下，估计背景噪声的统计特性，然后利用这些统计特性实现语音信号的增强。它适合平稳噪声，不适合语音分离，因为干扰语音源是非平稳噪声，在个时间估计的统计特性在另时间无效，所以无法进行语音分离。子空间分解法是依据字空间准则，把含噪语音进行分解，信号分解为信号字空间和噪声字空间，得到信号和噪声不同的统计特性，然后去掉噪声，它也只适用于去除平稳噪声，因为目标语音和干扰语音没有显著的统计特性和谱特性差别，所以该方法同样不能进行有效的语音分离。最小均方算法是利用许多与干涉源信号相关的参考信号，来除去有用语音信号中的干扰项，但在实际的语音分离中，会将部分目标语音去除，导致语音分离的效果变差。基于多麦克风阵列的波束形成技术已经被用来抑制混合语音中的干涉语音。将从多个麦克风阵列中得到的语音通过各种各样的滤波过程，实现对特定语音的基于的语音分离技术研究抑制或放大，滤波过程依赖于对声学环境的先验知识或利用统计特性的自适应的进行。但它有自身的局限性第，为增强个语音需要许多麦克风，代价高第二，波束形成所需要的麦克风阵列中各个麦克风的距离是由目标语音波长所决定的，使用上不方便第三，波束形成是频率相关技术，由于语音是全频带信号，很难在各个频段都取得较好的效果。由以上看出由于构成混叠语音的各源语音信号在时域和频域上完全重叠，因而常用的语音增强方法难以将感兴趣的目标语音从干扰语音中分离出来。目前，这方面的最新研究主要以盲信号分离和声场景分析,两类方法为主。盲信号分离技术所谓盲信号分离就是根据观测到混合数据向量确定变换以恢复原始信号或信源。盲信号分离中的盲指的是源信号的形式是未知的，源信号的混合方式是未知的。盲信号处理主要应用到阵列信号处理无线通信中用个通道实现多用户通信服务通信均衡脑电信号分离多说话人语音信号的分离以及隐性经济因素提取等用途。已经成为目前研究的个热门。盲信号处理需要几个假设条件源信号的个数和观测信号的个数相等源信号的各分量都是零均值的实随机变量，且在任意时刻均相互源信号的各分量中最多允许个具有高斯分布各传感器的引入噪声很小对源信号的概率密度函数有些先验知识的基本原理和应用的提出分量分析方法是近二十年逐渐发展起来的种高效盲信号分离方法。它最早是用来解决鸡尾酒会问题的。它最早由和提出。下面我们看下什么是鸡尾酒会问题。假设在个房间内有两个人同时说话，在不同的位置放两个话筒记录房间的基于的语音分离技术研究说话声，现在要将两个人的说话声分离出来。假设话筒采集信号为两个人的说话语音信号用,表示，由于每个话筒记录的均是两人的混合声音，所以可用如下方程表示其中系数是与话筒和说话人距离相关的参数。在这种情况下我们希望只利用观测信号和，就能得到源信号和，这就是鸡尾酒会问题。如果值是已知的，利用传统的方法很容易解决，反之，问题就比较复杂。然而，实际上只要,是统计的，我们可用统计方法估计出的值。正是这样种统计方法。它能从传感器观测到的混合信号中分离出源信号，是分离出的信号之间尽可能。的处理流程原始数据预处理后数据分离信号重建图的处理流程的应用近来,通过实现的盲源分离引起了广泛的关注,主要是因为该方法在语音识别特征提取生物信号处理以及通信系统和金融数据分析等方面有着广泛的应用。特征提取是广泛运用在图象和声音压缩技术，通过方法可源信号„传感器„„图典型的多源多传感器框图在定条件下，能有效的从多通道观测信号中分离出源信号。其主要任务是估计分离矩阵，以实现从多通道观测信号中分离出相互的信源分量，即，希望能较好的逼近真实源信号。算法本节主要介绍种结构简单的定点快速算法，该方法基于定点递推算法，对目标函数的优化速度快，对任何数据都适用，具有很好的稳定性，是目前使用非常广泛的种方法。其结构图如下基于的语音分离技术研究图算法框图由公式的推导过程中，我们知道其中是个正常数，是均值为，方差为的高斯随机变量。的均值为，方差为。函数是个非二次函数。由于的值不随分离矩阵而改变，所以只要调节使分离信号的负熵和最大，就等于分离出的信号之间的互信息最小。目标函数的选取在节中，我们提到方法目标函数优化算法。那么在实际计算中所选择的目标函数必须满足计算简单的要求，而且方法的统计特性如致性鲁棒性取决于目标函数，目前对目标函数的选取有以下。这里，，。是个较好的通用函数。在上节中式中，判据基于的语音分离技术研究我们就选用的该函数作为目标函数的。当分量是超高斯性很强的信号且对鲁棒性能要求很高时，我们更经常选。当计算量必须减少时，和就应该用分段多项式函数代替。只适合亚高斯信号，且抽样值没有干扰的情况。优化算法优化算法的选择对算法特性收敛速度，内存要求起决定作用。具体途径分为两条，即批处理和自适应处理。批处理的计算量比较大，而自适应处理虽然计算简单，但收敛速度慢，需要选择好迭代步长。尽管这样，目前自适应处理还是比批处理的应用范围广些。批处理的固定点的快速算法不使用随机梯度搜索法而采用定点迭代法，每次迭代中采样的数据是成批使用，该方法是并行分布式，优化速度快，对任何数据都适用，具有很好的稳定性。方法主要分两步实现对观测信号的预处理，分量提取。下面我就分别介绍。信号的预处理在应用之前要对数据做预处理使估计更加简单稳定，更加符合前面的约束条件，信号的预处理主要包括中心化和白化。中心化中心化就是去均值，通过对信号减去其均值，使信号的均值为，这样做只是为了简化的估计算法，设信号,其均值为,则中心化过程为，这是信号的均值为白化信号通过个白化滤波器，得到白化后的信号，也就是对信号进行线性变换，使的元素是不相关的，而且具有单位方差，的协方差矩阵是个单位阵。通常白化处理采用特征值分解的方法。假定,其中为的特征向量阵，为特征值对角阵，则下式可完成对数据的白化处理基于的语音分离技术研究相应的也做了变换，变成新的，是个正交阵，则有下式成立因为是个正交阵，所以只需估计个参数，而不是个参数，这就减少半的工作量。分量的提取在上节中我们得到被处理过的信号，本节对它进步处理，即寻找分离矩阵以实现分量的提取注此处的是针对处理以后的信号而言的分离过程是个迭代逼近过程，我们用变量表示迭代步数，令ˆ是ˆ中的分量，为分离矩阵中与ˆ对应的行向量，即ˆ分离过程中，用式所定义的目标函数对分离结果ˆ的非高斯性进行度量，并对进行调整，算法的调整公式为当两次的无变化或变化很小时，即可认为ˆ，迭代过程结束。由公式中的均值计算可通过时间的平均获得。所以每次迭代后，都要对进行归化处理，以确保分离结果具有单位能量。以上是对单个分量的迭代过程。同理，我们也可对多个分量重复使用上述的迭代方法进行分离，。但每次提取个分量后，从观测信号中减去这个分量，如此重复，直到分量完全分离出来。并可得到混合矩阵和分离矩阵。算法的特点⒈在模型中，收敛速度是二次以上的，而梯度搜索法只是次收敛。⒉与梯度搜索法相比，的步长参数容易确定。基于的语音分离技术研究⒊该算法适用任何非高斯信号。⒋可以通过选择不同的使算法获得不同的性能。⒌可逐个估计分量。⒍该算法是并行的分布的，计算简单，需要内存少。仿真实验我们采用段音乐信号，段人声信号作为源信号，信号的采样频率是赫兹长度为点，使用混合矩阵对源信号进行线性混合得到两个观测信号，。使用上述算法对观测信号进行分离，丛中得出两个源信号的近似值结果如下图所示图音乐信号与语音信号分离结果图我们采用段甲人的说话声，段乙人的说话声作为源信号，信号基于的语音分离技术研究的采样频率是赫兹长度为点，使用混合矩阵对源信号进行线性混合得到两个观测信号，。使用上述算法对观测信号进行分离，丛中得出两个源信号的近似值结果如下图所示图语音信号分离结果上面两个例子中的混合信号是经过随机产生的矩阵对两路源信号的线性混合产生的，可用来模拟在公共环境下的录音，每路混合信号均包含两种源信号分量，由于不同的声音的频带是混合的，所以传统频率滤波的方式是无法实现的，但是从上图的分离结果，我们很容易看出算法分离的结果是非常理想的，从分离信号和源信号的波形对比上可以看出，而且经过试听，的确如此。但是我们很容易得出分离结果的不确定性在能量上存在差异，在分离结果的次序上存在差异，这也就是我们在第二章提到的分离结果的不确定性，当对大量信号进行分离时，这个不确定性会带来很多麻烦，但目前还没什么好的解决方法。基于的语音分离技术研究第四章总结与展望总结语音分离技术具有现实的应用价值，主要的研究方向是盲信号的分离，而其中的分量分析是盲信号分离研究领域中的个具有创造性的思路。经