1) wideband-Perceptual Evaluation of Speech Quality(w-PESQ)
宽带语音质量感知评价
2) Perceptual Evaluation of Speech Quality(PESQ)
感知语音质量评价
1.
Testing with the average segment SNR and Perceptual Evaluation of Speech Quality(PESQ),the improved algorithm is close to G.
用平均分段信噪比和感知语音质量评价(PESQ)测试,改进算法编码质量接近于G。
3) PESQ
感知语音质量评估
4) perceptual evaluation of speech quality
语音质量感知评估
1.
Experimental result shows that the new approach has advantages of without delay and better perceptual evaluation of speech quality(PESQ) scores.
实验表明,本文算法没有延迟,语音质量感知评估(Perceptua l eva luation of speech qua lity scores,PESQ)值高,对窄带及宽带信号噪声的压缩均有满意效果。
6) objective assessment of speech quality
语音质量客观评价
1.
Study on the Applications of Neural Networks in Objective Assessment of Speech Quality;
神经网络在语音质量客观评价应用中的研究
补充资料:感知语音学
研究语言感知的学科, 又称言语的感知 (speech perception)。语音由说话人说出,成为言语波,通过空气传到听话人耳中,经过听觉机制、神经系统而使对方理解。广义地说,这一全部过程都是言语的感知过程。听觉的研究属于生理方面,神经系统的研究属于感知方面。语言的感知研究要用间接实验来进行,和语言学、语音学有密切关系,因此成为一门独特的学科。
言语感知的系统 言语信号的感知是将一连串的语音通过连续的、从听觉到神经的感知系统来完成。由于实验手段的限制,有些理论还在假说阶段,有许多事实还得通过语音实验间接取得。对于感知的重要机制、神经系统的功能还在探索中。言语声波的刺激在耳蜗的听觉感受器中转化为听觉神经的冲动,再传递给大脑的中枢神经系统,由这个系统加以整理、分类和译码。
言语感知的过程 一般可分为 4个阶段:①听觉的,②语音的,③音位系统的,④语法结构的。听觉阶段是对纯声音的感觉阶段,所接收的是语音的物理参量。它把言语波转换成为一组组按时间变化的声型,起着刺激神经的作用。这些声型包括频谱结构、基频、振幅、时长等,分别被感觉为一种语言的音位、声调、响度和快慢等,成为语音感知的阶段。它与听觉阶段紧密相联。听音人对这类音的认识,或出于习得的本能,或由于环境的濡染,辨别出各种语音信号,所感知的是一种概念模型。这一阶段感知的正确程度,因听话人的母语习惯而有差别。第3阶段由听音人根据自身熟知的语言音系,或通过学习后的理解,把所听到的语音归纳、对比而辨别出不同的特征或音位。第4阶段是感知的最高层次,有直接的和间接的两种感知效果。直接的是从声音的参量来感知,例如一个词或句子的特点可由其声音随时变的强弱、基频的变化、音节分配的快慢等而区别出词义或语义。但是,语音在连续语言中的变化很大,有些音会因受前后音的影响而变质,有的会在说快时失落(吃掉),有时或把整词整句说得含糊,甚至有些词或被别的词或插入的咳嗽等所替代,但听话人还能根据全句全章总的感知而似乎"听到了"这些音。这个阶段有许多成分依赖于社会因素。实验证明,听话人每因自身的母语音系与所听音系的不同,造成感知上的"偏误"或者用一种似是而非的所谓"中间语"来判断、摹仿。
言语感知的实验方法 语音的声学特征和感知特征往往不相吻合。为了弄清哪些音听起来与实际声学参量相符,哪些不符,需要用听觉测验来判断、选择、分类和对比。对这类实验通常采用两种方法:范畴感知和选择适应。
范畴感知。以元音为例,元音按舌位的高低,例如从 i到a,连续渐变。尽管语音学家可以把它分为4个标准元音[i]、[e]、[ε]、[a],或作更细的分级,但各等级之间仍有无数的过渡。从前到后各音的舌位也都是如此。所以从音质来讲,元音的变化是无限的,而从一个特定语言中具有辨义功能的音位来分,元音又是有限的。从音位的应用可以把无数的元音归纳成若干个音位范畴,因而产生了各范畴之间的音位界线。在不同语言中,由于音系不同,范畴的界线也不同。例如英语的[i:]和[ε]是两个音位范畴,而西班牙人看来只是一个。汉语中吴方言的塞音有清浊两个范畴,而在官话方言中就只归入一个范畴。
选择适应。把范畴感知的实验用比较、对比等方法来使听者作出判断。这个实验方法又分两部分:①辨认,这是用人工合成出来的一系列循序渐变的语音(见言语合成),要求被试者辨认这些音的音位(不是音素),从而找出音位界线;②区分,用合成的3个音素的音作ABX实验。其中AB两音有微小差别,第3个X音则与AB中的某一个音相同,让被试者区分出哪两个音是相同的,剩下的一个音是独异的。这类的实验只有在高质量的合成技术问世以后,才能得到满意的结果。它可以用合成手段把各音的声学参量加减、变型或改变其环境来取得直接或间接的测验结果。(图1)是通过改变一个音节中的元音第二共振峰 VOT(见声学语音学)的频率和趋势来测试辅音听辨范畴的示例。
言语感知的运动理论 运动理论在言语感知的研究中,近年已被采用。它的一些假说虽然还有争议,但它能解释许多关于语言的理解、学习等方面的问题,同时对言语信息处理工程也有指导作用,因此已广为人们所注意。运动理论的基本内容是:把听话人听懂语言的过程分为几个阶段。人们听辨语音,首先是耳朵听到各音段的物理特征,成为听觉模型。然后通过一系列的处理过程(生理的、物理的、......)变成可听懂的音位。还有一种说法是:听话人所感知的音位模型,必然是他自己所能说出的音位模型。这一系列的感知过程联系到听音和发音双方面。这些复杂过程在神经系统中进行得极快,而且有相互校正的功能。这些理论通过大量的实验(包括辅音、元音和声调的感知测验)提供了根据。运动理论由于实验对象和方法的不同而有多种解释。这里介绍一种"分析-合成"的运动理论(图 2)。语音首先由听觉机制 A来分析(例如,用区别特征的理论来分析),然后在记忆中"存储",如 B。它随即把所听到的特征送到比较机制H中和初步的音位解码机制C中备用。后者将听觉特征转换成一连串暂时译解的音位,再送到控制机制/判定机制 D,并与这个音位前面的文句混合,得到一连串的试拟音位。这一系列的试拟音位再由音系规则E转换成一套调音(发音)运动指令F。这些都送入一个合成装置 G,它把指令再转成一套听觉特征模型,来和原来所存的听觉模型在H中作比较,其差别(或错误)由判定机制来确定。如差误很小,则判定成立,就把初步拟定的音位作为最终决定。如差误大,则产生一个新的试拟音位,重复一次合成的过程。这个过程可以反复进行,直到得出最佳的判断。这套理论模型不只用来表达音位的感知运动,对于更高层次如音节、词、句等的感知,也同样可用。(图3)
言语感知的系统 言语信号的感知是将一连串的语音通过连续的、从听觉到神经的感知系统来完成。由于实验手段的限制,有些理论还在假说阶段,有许多事实还得通过语音实验间接取得。对于感知的重要机制、神经系统的功能还在探索中。言语声波的刺激在耳蜗的听觉感受器中转化为听觉神经的冲动,再传递给大脑的中枢神经系统,由这个系统加以整理、分类和译码。
言语感知的过程 一般可分为 4个阶段:①听觉的,②语音的,③音位系统的,④语法结构的。听觉阶段是对纯声音的感觉阶段,所接收的是语音的物理参量。它把言语波转换成为一组组按时间变化的声型,起着刺激神经的作用。这些声型包括频谱结构、基频、振幅、时长等,分别被感觉为一种语言的音位、声调、响度和快慢等,成为语音感知的阶段。它与听觉阶段紧密相联。听音人对这类音的认识,或出于习得的本能,或由于环境的濡染,辨别出各种语音信号,所感知的是一种概念模型。这一阶段感知的正确程度,因听话人的母语习惯而有差别。第3阶段由听音人根据自身熟知的语言音系,或通过学习后的理解,把所听到的语音归纳、对比而辨别出不同的特征或音位。第4阶段是感知的最高层次,有直接的和间接的两种感知效果。直接的是从声音的参量来感知,例如一个词或句子的特点可由其声音随时变的强弱、基频的变化、音节分配的快慢等而区别出词义或语义。但是,语音在连续语言中的变化很大,有些音会因受前后音的影响而变质,有的会在说快时失落(吃掉),有时或把整词整句说得含糊,甚至有些词或被别的词或插入的咳嗽等所替代,但听话人还能根据全句全章总的感知而似乎"听到了"这些音。这个阶段有许多成分依赖于社会因素。实验证明,听话人每因自身的母语音系与所听音系的不同,造成感知上的"偏误"或者用一种似是而非的所谓"中间语"来判断、摹仿。
言语感知的实验方法 语音的声学特征和感知特征往往不相吻合。为了弄清哪些音听起来与实际声学参量相符,哪些不符,需要用听觉测验来判断、选择、分类和对比。对这类实验通常采用两种方法:范畴感知和选择适应。
范畴感知。以元音为例,元音按舌位的高低,例如从 i到a,连续渐变。尽管语音学家可以把它分为4个标准元音[i]、[e]、[ε]、[a],或作更细的分级,但各等级之间仍有无数的过渡。从前到后各音的舌位也都是如此。所以从音质来讲,元音的变化是无限的,而从一个特定语言中具有辨义功能的音位来分,元音又是有限的。从音位的应用可以把无数的元音归纳成若干个音位范畴,因而产生了各范畴之间的音位界线。在不同语言中,由于音系不同,范畴的界线也不同。例如英语的[i:]和[ε]是两个音位范畴,而西班牙人看来只是一个。汉语中吴方言的塞音有清浊两个范畴,而在官话方言中就只归入一个范畴。
选择适应。把范畴感知的实验用比较、对比等方法来使听者作出判断。这个实验方法又分两部分:①辨认,这是用人工合成出来的一系列循序渐变的语音(见言语合成),要求被试者辨认这些音的音位(不是音素),从而找出音位界线;②区分,用合成的3个音素的音作ABX实验。其中AB两音有微小差别,第3个X音则与AB中的某一个音相同,让被试者区分出哪两个音是相同的,剩下的一个音是独异的。这类的实验只有在高质量的合成技术问世以后,才能得到满意的结果。它可以用合成手段把各音的声学参量加减、变型或改变其环境来取得直接或间接的测验结果。(图1)是通过改变一个音节中的元音第二共振峰 VOT(见声学语音学)的频率和趋势来测试辅音听辨范畴的示例。
言语感知的运动理论 运动理论在言语感知的研究中,近年已被采用。它的一些假说虽然还有争议,但它能解释许多关于语言的理解、学习等方面的问题,同时对言语信息处理工程也有指导作用,因此已广为人们所注意。运动理论的基本内容是:把听话人听懂语言的过程分为几个阶段。人们听辨语音,首先是耳朵听到各音段的物理特征,成为听觉模型。然后通过一系列的处理过程(生理的、物理的、......)变成可听懂的音位。还有一种说法是:听话人所感知的音位模型,必然是他自己所能说出的音位模型。这一系列的感知过程联系到听音和发音双方面。这些复杂过程在神经系统中进行得极快,而且有相互校正的功能。这些理论通过大量的实验(包括辅音、元音和声调的感知测验)提供了根据。运动理论由于实验对象和方法的不同而有多种解释。这里介绍一种"分析-合成"的运动理论(图 2)。语音首先由听觉机制 A来分析(例如,用区别特征的理论来分析),然后在记忆中"存储",如 B。它随即把所听到的特征送到比较机制H中和初步的音位解码机制C中备用。后者将听觉特征转换成一连串暂时译解的音位,再送到控制机制/判定机制 D,并与这个音位前面的文句混合,得到一连串的试拟音位。这一系列的试拟音位再由音系规则E转换成一套调音(发音)运动指令F。这些都送入一个合成装置 G,它把指令再转成一套听觉特征模型,来和原来所存的听觉模型在H中作比较,其差别(或错误)由判定机制来确定。如差误很小,则判定成立,就把初步拟定的音位作为最终决定。如差误大,则产生一个新的试拟音位,重复一次合成的过程。这个过程可以反复进行,直到得出最佳的判断。这套理论模型不只用来表达音位的感知运动,对于更高层次如音节、词、句等的感知,也同样可用。(图3)
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条