4) learning identification
学习识别
5) audio visual speech recognition
听视觉语音识别
1.
In audio visual speech recognition and lipreading, the widely used ASM (Active Shape Model) for lip contour extraction suffers from the lack of robustness and cannot extract the exact lip contours due to the various mouth shape changes when uttering.
提出了一种用于听视觉语音识别的基于 MASM的口形轮廓提取方法 ,这种方法只需要少量的训练数据就可以实现对大量口形轮廓的准确提取。
6) auditory pattern recognition
听觉物体识别
补充资料:汉语语音识别分类
汉语语音识别分类
classification of Chinese speech recognition
一种方法是用一个经过良好训练的非特定人或上述特定分类的标准样板或模型,发音人发少量自适应训练句,对已存人的标准样板或模型参数进行修改,使之适应该特定人。hQnyU yuyin shibie fenlei汉语语音识别分类(d理洛incatkm of Chin已记s碑搜h rec雌夕ition)对汉语语音识别系统按识别对象或按使用者适应情况进行区分。 (l)按识别对象有以下三类识别方式。 ①孤立词识别旅立词识别是指在发待识别音时,单元间有明显的间歇。识别系统不需要特殊处理来分割单元。对汉语而言,以字、词或短语为单元构成词汇表,待识语音则为这些单元中的某一个。用词汇表全部或其一部分进行训练产生全部词汇的标准样板或模型(参见汉语语音识别)。汉语普通话中识别单元为全部可拼读音节时称全音节识别。汉语普通话实际使用的音节仅1 200个左右。根据(现代汉语词典》,包括轻声在内仅有1 333个不同音节,不考虑轻声仅剩12%个音节,而无调音节只有400个左右,这是汉语区别于外语的独特特点之一。全音节识别是实现汉语无限词汇识别和中文文本口呼输人的基础。 ②连接词识别连接词识别的识别词汇表也是字、词或短语,但识别时可以是它们中间几个的慢速连读。慢速连读是指既不像孤立词识别时单元间有明显间歇,也不像连续语音识别那样需用复杂的程序来切分单元,而是机器仍很容易分割单元。识别时只会产生替代错识,不会产生插人错误和丢失错误。例如词汇表包含“O”、“1”……、“9’’十个数字,识别时可念“3”、“27”、“659”等等。 ③连续语音识别连映语音识别的待识语音是一些完整的句子,以正常说话速度发音,比连接词发音要快得多,甚至还允许有一定的随意性。句中每个字或词与它们单独发音比,除了有字调和词调的变化外,由于它们在句中所处位置不同,受整句语调的影响。识别单元可以字或词为单元,也可用声母、韵母等音素为单元。由于上述原因,连续语音识别要对识别单元正确切分和识别是很困难的,是语音识别主要难题之一。在连续语音识别基础上对所识别的句子进行理解即为语音理解。 (2)按使用者适应情况可分为以下两类。 ①认人语音识别认人语音识别又称特定人语音识别识别系统只适应某一个特定人。系统训练时只用使用人的语音来生成识别单元的标准样板或模型(参见汉语语音识别)。因而仅适合其本人使用。其他人使用时要训练产生适合自己的标准样板或模型,否则识别率将大为下降。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条