说明:双击或选中下面任意单词,将显示该词的音标、读音、翻译等;选中中文或多个词,将显示翻译。
您的位置:首页 -> 词典 -> 民族文字信息处理
1)  national character information processing
民族文字信息处理
2)  the professional committee of the national language words information
少数民族语言文字信息处理专业委员会
3)  minority script processing
民族文字处理
4)  word information disposal
文字信息处理
1.
The idea may not be right, but it has certain macro-inspiration function to word information disposal.
观点不一定正确 ,但对语言文字信息处理的研究方向有一定的宏观启示作
5)  Minority Language Processing
数民族语言信息处理
6)  processing various Mongolian
蒙文语言文字信息处理
补充资料:中国民族文字
      中国各民族的文字。包括中国古代民族和当代民族曾使用过和正在使用的文字。文字是记录和传达语言的书写符号,是扩大语言在时间和空间上的交际功用的文化工具,对推动人类进步起着重要作用。以文字为研究对象,研究文字的起源、发展、性质、体系,文字的形、音、义的关系,正字法以及各别文字的演变情况的文字学,早已成为许多国家的一个学科。民族语文又直接关系着民族的识别与权利,是民族研究的一个重要部分。
  
  概况  中国民族文字的种类与使用相当复杂,按各民族文字的创制与使用情况,可分两种。
  
  当代民族使用的文字  中国现有56个民族。汉、回、满3个民族通用汉文,蒙古、藏、维吾尔、哈萨克、柯尔克孜、朝鲜、彝、傣、拉祜、景颇、锡伯、俄罗斯等12个民族通用从历史某个时期开始,一直使用的民族文字。其中广大蒙古族地区使用一种蒙古文,居住在新疆的蒙古族使用按照当地方言特点拼写蒙古语的另一种文字,并在某些方面也使用统一的蒙古文。居住在云南省的傣族在不同地区使用 4种傣文。西双版纳和附近孟连等地区使用傣仂[tai-l嚕]文,德宏傣族景颇族自治州的大部分傣族地区和景谷、双江、耿马、镇康、沧源的一部分傣族地区使用傣哪[tai-nγ]文,德宏地区的瑞丽、潞西、遮放和澜沧、耿马部分地区的傣族使用傣绷[tai-p奅嬜]文,红河哈尼族彝族自治州的傣族使用金平傣文。因为蒙古族使用两种蒙文,傣族使用4种傣文,回族和满族使用汉文,所以上述15个民族共使用17种文字。此外,傈僳族中大部分信仰基督教的群众使用一种用大写拉丁字母及其颠倒形式的字母拼写傈僳语的文字,还有维西县部分地区使用当地农民创制的傈僳音节文字。云南省东北部一部分信仰基督教的群众使用一种声、韵、调拼成方块的苗文。云南佤族中信仰基督教的少数群众使用拉丁字母形式的佤文。壮族、白族和瑶族的群众中,有一部分人使用在汉字影响下分别创制的方块壮字(见壮文)、方块白文、方块瑶字。前面列举的15个民族的17种文字,加上后面这6个民族中一部分人使用的7种文字,共有21个民族从中华人民共和国成立前到现在,使用着24种文字。
  
  中华人民共和国成立以后,又有壮、布依、苗、侗、哈尼、傈僳、佤、黎、纳西、白和土族等11个民族创制了拉丁字母形式的拼音文字。其中苗族因方言差别太大,黔东、湘西和川黔滇3个方言创制了3种文字,滇东北次方言设计了另一种文字方案(见苗文)。1957年也为景颇族中的载瓦语设计了一种拉丁字母形式的文字。因此,中华人民共和国成立后新创制文字的11个民族,加上景颇族中拼写载瓦语的文字,共有15种拉丁字母形式的新文字。上述中国27个民族使用的39种文字如下表:
  
  由于一些民族历史上的迁徙、杂居,以及社会经济、文化发展水平不同,特别是少数民族同汉族的长期密切交往,在少数民族中使用汉文的不只有回族和满族,在其他一些兄弟民族特别是尚无本民族文字的民族中还有相当多的人使用或兼用汉文,如达斡尔族、赫哲族、鄂温克族、 鄂伦春族、东乡族、 土族、撒拉族、保安族、裕固族、羌族、白族、纳西族、普米族、怒族、德昂族、布依族、侗族、水族、仡佬族、壮族、瑶族、仫佬族、毛南族、京族、土家族、黎族、畲族等。同时,不少汉族人民与一些少数民族长期杂居,密切交往,他们也能兼用当地少数民族语文;长期杂居的一些少数民族之间,也兼用或通用当地兄弟民族的语言、文字。
  
  停止使用的中国古代民族文字  中华民族在长期的历史发展过程中,曾在古代的各个历史时期创造与使用过一些古文字。由于历史的演变,它们后来逐渐停止使用,成为所谓的"死文字"。但是,这些已不使用的文字,在当时不仅起过重要的作用,而且还记录了不同历史时期的政治、经济、文化以及有关民族问题的宝贵资料,其中包括一些重要历史文献,为国内外有关学者所重视。这些文字是突厥文、回鹘文、察合台文、于阗文、焉耆-龟兹文、粟特文、 八思巴文、契丹文(包括契丹大字、契丹小字)、西夏文、女真文、满文、东巴图画文字、沙巴图画文字、东巴象形文字、哥巴文、水书等共17种文字。
  
  上表所列39种文字再加上这些只在历史上曾经使用过的17种文字,中国各民族共有56种文字。
  
  文字结构的分类  中国不但是语言类型的宝库,而且也是文字类型的宝库。根据文字结构类型、文字和语言的关系,可以把中国文字分为非字母文字和字母文字两大类。
  
  非字母文字,包括图画文字、象形文字、楷书化汉字、音节文字等。
  
  图画文字 在中国境内发现的图画文字只有两种:一种是云南纳西族的手抄本经书中使用的东巴图画文字;另一种是四川凉山彝族自治州甘洛、汉源、石棉等县尔苏沙巴文的手抄本经书中使用的沙巴图画文字。这两种文字的共同特点是:①尚未形成固定的行款,读经时,尽管一般的走向是由左到右,但字的左右上下位置一般要服从图像的需要。既可由左到右、也可由右到左,既可由上到下,也可由下到上。②常常利用字组构成的形象来表达比较复杂的意思。③读出来的经文中的词语,一般比写出来的字多。尽管这两种图画文字各有自己的特点,但它们的共同点说明,这类图画文字代表着从图画发展到文字的第一个阶段。现存纳西族石刻《木氏历代宗谱》中有16世祖牟保阿琮(约在公元12世纪下半叶到13世纪上半叶之间)"且制本方文字"的记载。有些学者认为,这种文字的创始时代应当在11世纪或者更早。东巴图画文字经书的册数很多,仅云南社会科学院东巴文化研究室和北京图书馆就收藏7000多册,再加上其他单位收藏的数目,总数在1万册以上。国外有些图书馆也收藏不少。例如,美国国会图书馆收藏3000多册,哈佛大学哈佛燕京图书馆收藏500多册。
  
  象形文字  在文字分类中的象形文字,主要是指文字形体的来源而言。它不仅包括字体的整体象某事物形体或状态的字和以象形字为基础构成的指事字,而且包括由单体象形字结合构成的会意字和形声字。据此来看上古汉字,如商周时代甲骨、钟鼎上的文字,也都是象形文字。在大多数词根是单音节的汉藏语系语言中使用这种象形文字的,基本上都是一个字读一个音节。而上述的图画文字却是另一种文字体系。在图画文字里,一个字可以读几个音节,甚至可以读一句话。云南纳西族的象形文字和贵州水族的水书中的大部分字,都是一个字读一个音节的象形文字。纳西族的象形文字,有3个特点:①一个字只能读一个音节;②以单体象形字为主,也有形声字、会意字;③文字的作用已经由表意发展到表音。因此,只要两个字同音或语音相近,就可以互相借用,同音和音近假借的情况特别多。用这种象形文字写的东巴经很少。它可能是在音节文字哥巴文的影响下产生的。纳西族由使用原始的图画文字进到一字一音的象形文字,是一个重大的发展。现举例把纳西族的图画文字和象形文字作一比较。
  
  图画文字:这个图看起来像一个字,实际上是一个字组。当中画的是一个站立的女人,指的是藏经女佛的女厨师。她双肩有两朵美丽的花,读 2zi,意为美丽,描写她身体和衣饰的美丽。下边穿着条花的裙子,也是着重说她穿着的美丽。整个字组读成下文:
   2d尶i 3γo 1xua 2l婖2me,2gu 2zi 2d尶i 2zi 
   水  打  饭  做 的 身体 美 衣服 美
   2d嚕 2ndz∧  2le  3mo 1po 。
  
  一
  身 (动前助词) 穿  戴
  
  意思是"(藏经女佛的)女厨师身材标致,穿戴着一身漂亮衣饰"。
  
  象形文字:
  
  同样两句,前句五个音节,后句九个音节。图画文字写成一个字组,而象形文字写成十四个音节,每个音节写一个字。
  
  楷书化汉字和在汉字影响下创制的几种文字  中国现在通用的楷书汉字,已有1800多年历史。它大体上是古代象形字、指事字、会意字和形声字的楷体化。有一些字的楷体化中包括简化。在汉字中形声字占绝大多数,其次是会意字。这两种造字法至今还是孳生新字的方法。后世增加的新字,主要是形声字,也有少量的会意字。
  
  
  
  在汉字影响下创制的少数民族文字可分两种类型:①字形结构虽受汉字影响,但有自己较多的特点,借用汉字不太多。属这一类的有契丹大字、西夏文和女真文。契丹大字是在汉字影响下创制的一种表意文字,汉语借词一般照汉字书写。女真字是参考汉字和契丹字创制的方块字。据研究,构成女真字的基本字,一部分来自汉字,另一部分来自契丹大字和少数契丹小字。但女真字的大部分是自造的。上述 3种文字的行款都是由上向下竖写,由右向左移行。这也是来自旧时代的汉字行款。西夏文主要使用会意和形声两种方法,这是受汉字的影响。据《文海研究》,西夏字一直没有形成象汉字那样有规则的偏旁体系,它使用一些独创的造字法,例如把一个字里的两部分互换位置来构成新字。另有一部分字用第一个字表示声母,第二个字表示韵母,采用反切构字法产生新字。西夏文同女真文一样,大量使用省笔构字法。
  
  ②大量使用音读汉字和训读汉字的方法表示自己的语言,也用形声或其他方法创制表达本族语词的新字。方块壮字、方块白文和方块瑶字,都属于这一类。其中方块白文使用音读和训读法特别多。方块瑶字的构字法,各地很不一致。有的地方自创了不少字形。这类方块文字是在较早的时期产生的,例如在广西壮族自治区发现的唐代用汉字写的碑文中,就夹用了一些方块壮字。在唐代樊绰的《蛮书》中有少量用方块白文写的字。在云南大理白族自治州境内有明代白族用方块白文写的碑文。
  
  音节文字  这种文字的共同特点是每个字表示一个音节,笔画比较简单。其中有少数字来源于稍加变化的汉字。自己创制的象形字和指事字为了与其他字体协调一致,已经不容易看出原来的形象。很多字体不能分析。这一类文字,目前发现的有3种,即彝族的音节文字、纳西族的哥巴文和云南维西县个别地区傈僳族的音节文字。这3种音节文字创制的时代,以彝文最早。现存文献有明嘉靖年间的碑铭。哥巴文产生时代比较晚。傈僳族的音节文字是云南省维西县的一位农民在20世纪20年代创制的。凉山彝族正在推广规范彝文。傈僳族的音节文字也有一部分群众使用。纳西族的哥巴文在中华人民共和国成立后已经不再使用,现在正在教学使用1957年设计、又经过修订的拉丁字母拼音文字。
  
  以上是属第一大类非字母文字中的4类文字,共包括古今14种民族文字。
  
  字母文字,也称拼音文字。中国民族的字母文字可按字母形式和来源分成9类:
  
  藏文、八思巴文、傣文  这些文字的字母都是直接或间接参考印度的某种字母形式,根据自己语言的特点创制的。其中八思巴文直接来自藏文,跟藏文有较多的共同点。但行款是由上向下竖写,由左向右移行,它与由左向右横书、由上向下移行的藏、傣等文字不同,而与回鹘式蒙文相同。但回鹘式蒙文有5个元音字母,八思巴文有7个元音字母。就产生年代看,以藏文最早,其次是八思巴文和傣文。藏语在 7世纪创制文字的时期大概还没有产生声调。傣仂文和金平傣文都把字母分高低两组,每组使用两个声调符号,区别了6个声调。傣哪文和傣绷文的字母都不分高低两组,字母本身不能区别语言中的声调。
  
  粟特文、回鹘文、蒙古文、满文、锡伯文  粟特文来源于公元初波斯时代的阿拉美文草书。回鹘文字母是参考粟特字母创造的。后来蒙古文字母的制定参考了回鹘文字母,满文字母的制定参考了蒙古文字母,锡伯文字母的制定参考了满文字母。这 5种字母有一脉相承的关系,不但书写行款都是由上而下竖行书写,由左向右移行(粟特文原先是由右向左横行书写),而且同一个字母单写和用在词头、词中、词末,一般都有不同的形式。粟特文不表示元音。回鹘文、蒙古文、满文和锡伯文都是音素字母文字。
  
  察合台文、维吾尔文、哈萨克文、柯尔克孜文  这4种文字都以阿拉伯字母为基础。 同一字母单写、在词头、词中、词末大都有不同形式,都是由右向左横行书写。察合台文有些元音符号常常省略,其他3种文字都重视表示元音,除个别情况外,都把元音表示出来。
  
  佉卢字母  是拼写印欧语系印度语族的一种西北俗语的字母。佉卢是梵语 "佉卢虱吒"的简称。公元2世纪末传入中国新疆于阗、鄯善一带。公元前创制字母时,曾参考仅22个字母的阿拉美文字。为了表达自己语言的需要,字母增至35个,并能表示5个元音。部分于阗语文献是用佉卢字母拼写的。
  
  焉耆-龟兹文 旧称吐火罗文。使用婆罗米字母斜体。写的是印欧语系的一种语言。焉耆和龟兹是这种语言的两个方言。20世纪以来,在中国新疆吐鲁番、库车、焉耆等地发现这种语言的文献,多属5至8世纪的。这是文献比较早的一种语言,曾引起许多国家学者的重视,并进行较系统的研究。中国民族古文字研究会于1980年将原名"吐火罗文"改称"焉耆-龟兹文"。
  
  突厥文  也称古代突厥文。根据突厥文献早期发现的地点,又称鄂尔浑-叶尼塞文;根据字母形体与北欧如尼文相似,亦称突厥如尼文。因为一个字母可以表示某些元音和辅音的结合体,所以它是一种音素字母和复合音素字母混合型的文字。一般由右向左横行书写。使用时代约在7~10世纪,是一种拥有较古文献的文字。也有人认为此文使用于6~10世纪。
  
  朝鲜文、契丹小字和方块苗文  这3 种文字都是在方块汉字的影响下,拼成方块的字母文字。朝鲜文有19个表示辅音和21个表示单元音和复元音的字母,这些字母按规定位置拼成方块字形。1444年创制。
  
  契丹小字创于10世纪。它的拼音字母一般称原字,一个原字可以只表示一个辅音或元音,有的表示一个单元音或复元音,或表示辅音和元音的结合体,是一种音素和多音素混合型的字母文字。据估计共有 300多个原字,现在只能认识100多个原字。用一、两个原字或多到六、七个原字大体上拼成一个方块,表示一个音节。行款是竖行书写,自右向左移行。既可直写,又可横写。
    方块苗文是1905年英国基督教传教士和苗语滇东北次方言区几位知识分子为拼写当地方言共同创制的一种苗文。每个字用一个表示声母的大字母为主体,把表示韵母的小字母放在大字母的上方、右上角、右侧或右下角兼表声调。因为每个字都大体上构成一个方块,所以称为方块苗文。
  
  俄文  新疆维吾尔自治区伊犁、塔城和内蒙古自治区额尔古纳右旗等地有2900多俄罗斯族居民,他们使用的俄罗斯语同苏联的俄罗斯语基本相同,所用的俄文与苏联的俄文相同。
  
  拉丁字母形式文字  拉祜族、景颇族和佤族的文字,都是拉丁字母形式,中华人民共和国成立前已经使用。现在前两种文字在本民族地区仍通用,但旧佤文只有少数基督教徒使用。拉祜文做了一些改进。中华人民共和国成立后,已有十几个民族创制了拉丁字母形式的文字,正在逐步推行。
  
  中华人民共和国成立后创制文字的工作  中华人民共和国成立后,在国家民族事务委员会和中国科学院的组织领导下,曾经先进行小规模的少数民族语言调查,然后开展了全国性的普查。普查的目的之一是帮助需要创制文字的民族创制文字。从1956年开始,一些需要创制文字的民族不断地要求正在讨论的汉语拼音方案早日定案,以便考虑汉语同他们语言相同相近的音,能在他们的文字方案中采用相同的字母表示。这样做有利于各民族互相学习语文和交流文化。于是少数民族语言研究所于1957年起草了《关于少数民族文字方案中设计字母的几项原则》,经中国文字改革委员会讨论后,国务会议修改通过了这个文件。文件中规定的原则是:①少数民族创造文字应该以拉丁字母为基础;原有文字进行改革,采用新的字母系统的时候,也应该尽可能以拉丁字母为基础。②少数民族语言和汉语相同或相近的音,尽可能用汉语拼音方案里相当的字母表示。③少数民族语言里有而汉语里没有的音,如果使用一个拉丁字母表示一个音的方式有困难的时候,在照顾到字母系统清晰、字形简便美观、字母数目适当,便于使用和教学的条件下,根据语言的具体情况,可以采用以下的办法表示:用两个字母表示一个音;另创新字母或者采用其他适用的字母;个别情况也可在字母上加附加符号。④对于语言中的声调,根据实际需要,可在音节末尾加字母表示或采用其他办法表示或不表示。⑤各民族的文字、特别是语言关系密切的文字,在字母形式和拼写规则上应尽量取得一致。
  
  在创制少数民族文字的工作中,基本上贯彻了上述5项原则,在新设计的文字方案中,能够使客观语言的共同因素,在书面语言里有相同或相近的面貌,同时保证少数民族语言中特有的语音也得到充分的表述。这是社会主义中国语言规划的一项重要内容。在有关部门的积极支持下,经过民族语文工作者的努力,根据语言调查研究的成果,已经帮助壮、布依、苗、侗、哈尼、傈僳、佤、黎、纳西、土、白等十几个少数民族创制了拉丁字母形式的拼音文字。1957年在云南省少数民族语文科学讨论会上,也为景颇族中的载瓦语设计了一种拉丁字母形式的文字方案。
  
  现在还有一些有本民族语言而没有文字的少数民族,他们将根据自己的意愿和客观条件,创制本民族的文字或者选用一种现有的对他们适用的文字。
  
  新创制的文字同传统文字一样,虽然在试验、推广过程中遇到一些问题需要进一步研究解决,但是,它在国家政策、法律的宣传中,在民族区域自治地方的建设中,以及在民族文化教育、文学艺术的发展中,发挥着越来越大的作用。
  
  

参考书目
   中国民族古文字研究会编:《中国民族古文字研究》,中国社会科学出版社,北京,1984。
   傅懋著:《纳西族图画文字〈白蝙蝠取经记〉研究》载"Computational Analyses of Asian and African Language", Monograph Senies No.6,1981; No.9,1984,Institute for the Study of Languages andCultures of Asia and Africa,Tokyo,Japan.
   史金波、白滨、黄振华著:《文海研究》,中国社会科学出版社,北京,1983。
  

说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条