1) Chinese names extraction
中文姓名信息提取
3) automatic Cinese information extraction
中文信息自动提取
5) hydrological information extraction
水文信息提取
6) Chinese names identification
中文姓名识别
1.
Chinese names identification based on mutual information;
基于互信息的中文姓名识别方法
2.
This paper presented an approach for Chinese names identification based on class vector model.
提出了一种基于类向量模型的中文姓名识别方法。
补充资料:中文信息处理系统
具备中文信息处理能力的计算机信息处理系统。所谓中文信息一般指汉字信息。汉字是一种形声文字,字符的数量很大,不像西文信息那样只用几十个字母的字符集就能表示,因此中文信息处理系统是建立在大字符集基础上的信息处理系统。这种系统应具备一个使用方便的汉字输入系统、能进行编辑排版的汉字输出系统、能处理汉字数据类型的各种处理程序。为了能够保留西文信息处理系统的全部功能和应用所有成熟的软件产品,就要使中文信息处理系统与西文信息处理系统兼容。
汉字输入系统 将汉字输入并转变为计算机内部编码的系统。输入方式可分为大键盘式(整字输入)、中键盘式(字根部首拼字输入)和小键盘式(编码输入)。小键盘指标准的西文计算机键盘,包括26个字母键、10个数字键、若干常用标点符号键和一些特殊功能键。由于键数少,有利于?ご颍〖躺ひ粘墒煳榷ǎ旒郾阋耍阌谄占巴乒恪:鹤直嗦胗卸嘀址绞剑槟善鹄纯煞治啵鹤中温耄ū驶⒉渴住⒆指敖切蔚龋⒆忠袈搿⒁粜温搿V泄壳白中温氲姆桨附隙唷S捎诓煌娜硕愿髦直嗦敕桨傅氖视δ芰σ膊幌嗤虼耍鹤中畔⒋硐低惩捎枚嘀质淙敕绞郊嫒莸氖淙胱酉低场S没Э筛葑砸训南肮哐∮貌煌氖淙敕绞健?
大键盘模拟中文打字机字盘的构造,一字一键,采用机械结构或笔触式结构(基于静电耦合原理、光电原理或电磁感应原理)。大键盘的优点是直观易学,缺点是键数过多,寻找键位困难,而且设备复杂,造价较高。
中键盘是根据汉字的拼形特点设计的。把汉字分解为字根、部首等纯形符号,按一定顺序组成字根序列。汉字字根在250~350个左右,经归类合并,最后形成40~100个字根的字根表,一个字根设置一键与之对应,按若干个键输入一个汉字。
小键盘的编码方案很多,有的按字音编码,有的按字形编码,有的兼用字音和字形。常用的编码方案有:汉语拼音,见字识码,声韵部形码,五笔字形码,汉字字元码,汉字拼形码,三角编码,四角号码,电报号码,范例检字法等。对编码方案的考虑原则是:适应用户的习惯,易学,易记,编码容易,编码的长度小,重码率低。
除了用按键方式向计算机输入汉字以外,还有两种借助计算机功能的自动输入汉字方式,即汉字自动识别(图像识别输入)和汉语语音识别(声音识别输入)。图像识别输入采用图像输入设备,将记录在载体(例如纸张)上的汉字当作图像读入计算机,通过一些预处理,将其数字化,去除噪声干扰,并整形成规范化的形式,然后通过特征抽取,获得一组可区别文字的特征。最后由识别系统将这些特征与先验知识库中已知文字特征进行一系列比较、判断和分析,得出判别结果,即内部码表示的汉字。声音识别输入与图像识别输入大致相似。由声音输入设备将声波代码读入计算机,经过类似的处理分析后得出识别结果。这两种输入方式都已有一些初步的试验结果,但尚须进一步深入研究。
汉字输出系统 将汉字的内部编码经转换通过输出设备以汉字图像形式输出。汉字是大字符集,很难采用整字模式印刷设备来输出字符形状,因此需要采用图像信息输出,即点阵扫描式输出。相应的汉字字形点阵被送入缓冲区,再通过输出设备将缓冲区内容输出。现代大多数汉字输出系统都是采用这种原理对西文输出系统加以改造,以图为字来完成汉字输出的。字形表示的设计往往取决于原来西文输出系统的输出缓冲区设置。一般来说,汉字字形点阵设计成西文字符点阵的2×2倍大小。
另一种方案是直接建立面向内部码的输出缓冲区。再建立一个面向西文、汉字字形的输出字典或字库。标准的固定的小字符集可用只读存储器(ROM),相对稳定的大字符集可用可编程序只读存储器(EPROM),而非标准的随机图形字符集则用随机存取存储器(RAM)。
汉字化程序设计 一个计算机系统可以分为三个层次。①裸机:即计算机主机和各种外围设备; ②系统软件:处于裸机外面,包括操作系统、编译系统和各种服务程序;③应用软件:处于系统软件外面。因此,一个计算机系统有三层界面。用户和应用程序之间为用户界面。用户通过用户界面操纵计算机系统,用户界面应当是用户容易掌握和乐于接受的。中文信息处理系统的用户界面应能适应中文环境,能经常用中文提示操作人员和数据录入人员。第二个界面是系统界面,这是系统软件提供的软件开发环境。第三个界面是机器界面,这是计算机硬件提供的基本功能,是软件设计的基础。
汉字化程序设计有四项要求:①允许中文注解;②允许中文常量赋值;③允许用中文定义变量名;④定义全套中文保留字。前两项要求,只要保证中西文信息结构兼容,就能满足。原来西文的软件系统均可运行。加上一个中文的编辑系统,用户就完全可以用中文编写程序,用中文写注解和常量,基本上改善了程序的可读性。对第三项要求,则需要加一个预处理系统。由于前两项要求已使程序可读性基本改善,所以这一要求并不特别需要。第四项要求也可通过预处理的办法加以解决。但是这样会破坏程序设计语言的国际化和标准化,不便于吸收外国成熟的软件产品。
汉字数据库系统 汉字数据库和汉字数据库管理系统已在部分大、中型机和一些微机上开发成功,并将关系数据库 dBASEⅡ改造成汉字关系数据库。汉字数据库系统已应用在汉字文献数据库、事务管理、人事档案管理、工资管理、企业管理、商业管理、通信管理、交通运输管理、计算机辅助教学等方面。
参考书目
张寿萱等:《中文信息的计算机处理》,宇航出版社,北京,1984。
汉字输入系统 将汉字输入并转变为计算机内部编码的系统。输入方式可分为大键盘式(整字输入)、中键盘式(字根部首拼字输入)和小键盘式(编码输入)。小键盘指标准的西文计算机键盘,包括26个字母键、10个数字键、若干常用标点符号键和一些特殊功能键。由于键数少,有利于?ご颍〖躺ひ粘墒煳榷ǎ旒郾阋耍阌谄占巴乒恪:鹤直嗦胗卸嘀址绞剑槟善鹄纯煞治啵鹤中温耄ū驶⒉渴住⒆指敖切蔚龋⒆忠袈搿⒁粜温搿V泄壳白中温氲姆桨附隙唷S捎诓煌娜硕愿髦直嗦敕桨傅氖视δ芰σ膊幌嗤虼耍鹤中畔⒋硐低惩捎枚嘀质淙敕绞郊嫒莸氖淙胱酉低场S没Э筛葑砸训南肮哐∮貌煌氖淙敕绞健?
大键盘模拟中文打字机字盘的构造,一字一键,采用机械结构或笔触式结构(基于静电耦合原理、光电原理或电磁感应原理)。大键盘的优点是直观易学,缺点是键数过多,寻找键位困难,而且设备复杂,造价较高。
中键盘是根据汉字的拼形特点设计的。把汉字分解为字根、部首等纯形符号,按一定顺序组成字根序列。汉字字根在250~350个左右,经归类合并,最后形成40~100个字根的字根表,一个字根设置一键与之对应,按若干个键输入一个汉字。
小键盘的编码方案很多,有的按字音编码,有的按字形编码,有的兼用字音和字形。常用的编码方案有:汉语拼音,见字识码,声韵部形码,五笔字形码,汉字字元码,汉字拼形码,三角编码,四角号码,电报号码,范例检字法等。对编码方案的考虑原则是:适应用户的习惯,易学,易记,编码容易,编码的长度小,重码率低。
除了用按键方式向计算机输入汉字以外,还有两种借助计算机功能的自动输入汉字方式,即汉字自动识别(图像识别输入)和汉语语音识别(声音识别输入)。图像识别输入采用图像输入设备,将记录在载体(例如纸张)上的汉字当作图像读入计算机,通过一些预处理,将其数字化,去除噪声干扰,并整形成规范化的形式,然后通过特征抽取,获得一组可区别文字的特征。最后由识别系统将这些特征与先验知识库中已知文字特征进行一系列比较、判断和分析,得出判别结果,即内部码表示的汉字。声音识别输入与图像识别输入大致相似。由声音输入设备将声波代码读入计算机,经过类似的处理分析后得出识别结果。这两种输入方式都已有一些初步的试验结果,但尚须进一步深入研究。
汉字输出系统 将汉字的内部编码经转换通过输出设备以汉字图像形式输出。汉字是大字符集,很难采用整字模式印刷设备来输出字符形状,因此需要采用图像信息输出,即点阵扫描式输出。相应的汉字字形点阵被送入缓冲区,再通过输出设备将缓冲区内容输出。现代大多数汉字输出系统都是采用这种原理对西文输出系统加以改造,以图为字来完成汉字输出的。字形表示的设计往往取决于原来西文输出系统的输出缓冲区设置。一般来说,汉字字形点阵设计成西文字符点阵的2×2倍大小。
另一种方案是直接建立面向内部码的输出缓冲区。再建立一个面向西文、汉字字形的输出字典或字库。标准的固定的小字符集可用只读存储器(ROM),相对稳定的大字符集可用可编程序只读存储器(EPROM),而非标准的随机图形字符集则用随机存取存储器(RAM)。
汉字化程序设计 一个计算机系统可以分为三个层次。①裸机:即计算机主机和各种外围设备; ②系统软件:处于裸机外面,包括操作系统、编译系统和各种服务程序;③应用软件:处于系统软件外面。因此,一个计算机系统有三层界面。用户和应用程序之间为用户界面。用户通过用户界面操纵计算机系统,用户界面应当是用户容易掌握和乐于接受的。中文信息处理系统的用户界面应能适应中文环境,能经常用中文提示操作人员和数据录入人员。第二个界面是系统界面,这是系统软件提供的软件开发环境。第三个界面是机器界面,这是计算机硬件提供的基本功能,是软件设计的基础。
汉字化程序设计有四项要求:①允许中文注解;②允许中文常量赋值;③允许用中文定义变量名;④定义全套中文保留字。前两项要求,只要保证中西文信息结构兼容,就能满足。原来西文的软件系统均可运行。加上一个中文的编辑系统,用户就完全可以用中文编写程序,用中文写注解和常量,基本上改善了程序的可读性。对第三项要求,则需要加一个预处理系统。由于前两项要求已使程序可读性基本改善,所以这一要求并不特别需要。第四项要求也可通过预处理的办法加以解决。但是这样会破坏程序设计语言的国际化和标准化,不便于吸收外国成熟的软件产品。
汉字数据库系统 汉字数据库和汉字数据库管理系统已在部分大、中型机和一些微机上开发成功,并将关系数据库 dBASEⅡ改造成汉字关系数据库。汉字数据库系统已应用在汉字文献数据库、事务管理、人事档案管理、工资管理、企业管理、商业管理、通信管理、交通运输管理、计算机辅助教学等方面。
参考书目
张寿萱等:《中文信息的计算机处理》,宇航出版社,北京,1984。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条