2) character coding
字符编码
1.
Based on the analysis on the character coding,the paper makes discussions on the 3 various coding cir-cumstances,and offers 4 worthful conclusions.
由于Java语言的字符集有很多套编码方法,这就使得有相当多的人对Java语言的字符编码方法不易完全掌握。
2.
JSP and Servlet are Web developing tools based on Java language,people usually meet Chinese character coding problem when acting on Web programming and designing.
JSP和Servlet是基于Java语言的跨平台Web开发工具,在进行网络编程设计中,人们常碰见中文字符编码处理等问题。
3.
It also gives analysis and discusses on attachment and character coding, the important part in e mail system.
本文结合作者的实际工作经验 ,介绍了具有语音输入输出功能的 E- MAIL 系统的设计原理和实现方法 ,并就附件收发、字符编码等 E- MAIL系统中的重要内容进行了的分析和讨论 ,文中介绍的一些设计思路可广泛应用于 In-ternet应用基础软件和其它应用软件的设计开发
3) character encoding
字符编码
1.
Analysis of web page character encoding and its application
页面字符编码的分析及其应用
2.
Because of the conflict between the mechanism of character set processing of Tomcat and java and Chinese character encoding,the programers developing on Tomcat server have to face the Mess code frequently.
该文在论述字符集和字符编码以及java对字符编码的处理机制的基础上,探究了出现的乱码的原因并提出相应解决办法。
3.
Unicode Character Database plays an important role in Tibetan character encoding.
藏文的字符编码工作中需要建立编码字符数据库,而Unicode字符数据库在各国语言文字的字符编码方面具有非常重要的作用,因此要制定藏文编码字符数据库必须对Unicode字符数据库技术掌握得深透。
4) Character decoder
字符解码
5) Character Codes
字符码
6) Char Disorder
字符乱码
补充资料:字符编码
在符号集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。通常人们用符号集合(一般情况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件)不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系统的数字,因此编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码。例如,数码管有10个状态,分别表示从0到9的10个数字,可以构成一个十进制数字系统。由26个英文字母A、B、C、...、Z组成的符号集合可用两位十进制数来编码:A呏01,B呏02,C呏03,...,Z呏26。符号集合有26个元素,而两位十进制数字系统有100个元素,其中有74个元素没有使用。双稳态元件可以构成二进制数字系统,既经济效率又高,便于用集成电路实现,为计算机所采用。
编码的方式很多,但都应当满足下述要求:①符号之间的某种关系应当在相应的编码中有所反映。例如,字母表中有个顺序关系:A在B之前,B在C之前等,可对应编码的大小关系:01<02,02<03等。②作用于符号的操作和对应的作用于数的操作能产生相对应的结果。例如,要找出B、E、A、C中排在字母表最前面位置的字母和在02(对应B),05(对应E),01(对应A),03(对应C)中找出数值最小的数,这两种操作会得到相对应的结果A和01。③表达方式应当是高效率的,能够缩小数字系统的体积,减少浪费。
十进制数码的二进制表示法 十进制数码的符号一共有10个,即0,1,...,9,可用4位二进制数码或4位以上的二进制数码来表示。主要的方法是加权编码,在每个二进制数码上给予不同的权。例如用 4位二进制数对一位十进制数进行编码:
D呏b4b3b2b1其中D是十进制数码符号0~9,bi是二进制数码0或1,可规定 4个权,W1、W2、W3、W4同b1、b2、b3、b4对应。这时,十进制数码D同二进制数的对应规律为:
D=biWi=b4W4+b3W3+b2W2+b1W1如果两个不同的二进制数对应同一个D,则要附加一条规则来决定究竟用哪一个数。常用的4位编码(表1)有以下几种:
① 8421码 从左到右的权为8、4、2、1。这种表示和二进制表示是一致的,又称二进制编码的十进制,简称BCD码。
② 7421码 从左到右的权为7、4、2、1。此时数字7对应于两个二进制数1000和0111,所以要附加一条规则,即挑选其中1的个数少的一个,即选1000为数字7的编码。
③ 742-1码 其中最右边的一个权取负值。此时数字6对应两个二进位数1001和0110,附加规则为挑选其中有较低有效数的一个,即选1001为数字6的编码。
④ XS3码(XS3是英文excess-3的缩写,即加三码)在BCD码的基础上加上二进制数0011,即加上十进制的三。
常用检错编码 编码位数多的好处是便于检查差错,编码的结构简单,由硬件实现起来也容易。常用检错编码(表2)有4种。
① 五取二码 取5位二进制数码,每个数中包含两个1。
② 二元五进码(BQ码) 取7位二进数码,分成左右两部分,左面两位,右面五位。每个数中包含两个1,一个在左部,一个在右部。出错检查很容易,只要左部或右部出现1的个数不为一时,肯定有错。这种编码硬件实现也较容易。
③ 改进的二元五进码(MBQ码) 取 4位二进制数码,最左一位对应二元五进码左部,右面三位对应它的右部,权为5421。
④ 格雷码 因由 F.格雷发明而得名。他调整二进位数的次序,使两相邻的数码只有一位不同。它能满足特殊情况下的要求,即把机械位移量转换成二进制编码时可得到较高的可靠性。
字母表的二进制数表示 完全的字母表一般包括下列符号:拉丁字母A~Z,数字0~9,标点符号,特殊符号如&、 @、$ 、?? 、...。 字母还可分大写和小写,另外还有许多控制用符号,并考虑到扩充的可能性。符号的总数不超过256个。一个符号可以用8位二进制数来表示。主要的编码方式有3种。
① 霍勒里思码 一种IBM机器穿孔卡片的编码形式。每张卡片80列,12行。每列表示一个符号,用12位。
② 扩充的二进制编码的十进制交换码(EBCDIC码) IBM开发的8位编码,适用于IBM360和IBM370等计算机。
③ 美国标准信息交换码(ASCII码) 实际上是 7位码,附加一位校验码,一共8位。
汉字编码 汉字字符多、数量大,过去的编码系统杂乱繁复,使用与维护极不方便。这种情况给汉字信息处理系统的软件与硬件的设计和制造带来很大困难,严重阻碍汉字信息处理技术的发展。1980年中国公布了国家标准《汉字交换码,基本集》即国家标准GB2312-80信息交换用汉字编码符基本集。标准于1981年5月1日起开始执行。标准规定了信息交换用的基本图形字符及其二进制编码表示,它适用于一般汉字处理,汉字通信系统之间的信息交换。
这一标准集规定了一般符号、序号、数字、拉丁字母、汉字等共7445个图形字符。其中一般符号202个,序号60个,数字22个,拉丁字母52个,日文假名169个,希腊字母48个,俄文字母66个,汉语拼音符号26个,汉语注音字母37个,汉字6763个。根据使用频度,将汉字分为两级,第一级汉字3755个,按汉语拼音字母顺序排列,第二级汉字3008个,按部首排列。
编码的方式很多,但都应当满足下述要求:①符号之间的某种关系应当在相应的编码中有所反映。例如,字母表中有个顺序关系:A在B之前,B在C之前等,可对应编码的大小关系:01<02,02<03等。②作用于符号的操作和对应的作用于数的操作能产生相对应的结果。例如,要找出B、E、A、C中排在字母表最前面位置的字母和在02(对应B),05(对应E),01(对应A),03(对应C)中找出数值最小的数,这两种操作会得到相对应的结果A和01。③表达方式应当是高效率的,能够缩小数字系统的体积,减少浪费。
十进制数码的二进制表示法 十进制数码的符号一共有10个,即0,1,...,9,可用4位二进制数码或4位以上的二进制数码来表示。主要的方法是加权编码,在每个二进制数码上给予不同的权。例如用 4位二进制数对一位十进制数进行编码:
D呏b4b3b2b1其中D是十进制数码符号0~9,bi是二进制数码0或1,可规定 4个权,W1、W2、W3、W4同b1、b2、b3、b4对应。这时,十进制数码D同二进制数的对应规律为:
D=biWi=b4W4+b3W3+b2W2+b1W1如果两个不同的二进制数对应同一个D,则要附加一条规则来决定究竟用哪一个数。常用的4位编码(表1)有以下几种:
① 8421码 从左到右的权为8、4、2、1。这种表示和二进制表示是一致的,又称二进制编码的十进制,简称BCD码。
② 7421码 从左到右的权为7、4、2、1。此时数字7对应于两个二进制数1000和0111,所以要附加一条规则,即挑选其中1的个数少的一个,即选1000为数字7的编码。
③ 742-1码 其中最右边的一个权取负值。此时数字6对应两个二进位数1001和0110,附加规则为挑选其中有较低有效数的一个,即选1001为数字6的编码。
④ XS3码(XS3是英文excess-3的缩写,即加三码)在BCD码的基础上加上二进制数0011,即加上十进制的三。
常用检错编码 编码位数多的好处是便于检查差错,编码的结构简单,由硬件实现起来也容易。常用检错编码(表2)有4种。
① 五取二码 取5位二进制数码,每个数中包含两个1。
② 二元五进码(BQ码) 取7位二进数码,分成左右两部分,左面两位,右面五位。每个数中包含两个1,一个在左部,一个在右部。出错检查很容易,只要左部或右部出现1的个数不为一时,肯定有错。这种编码硬件实现也较容易。
③ 改进的二元五进码(MBQ码) 取 4位二进制数码,最左一位对应二元五进码左部,右面三位对应它的右部,权为5421。
④ 格雷码 因由 F.格雷发明而得名。他调整二进位数的次序,使两相邻的数码只有一位不同。它能满足特殊情况下的要求,即把机械位移量转换成二进制编码时可得到较高的可靠性。
字母表的二进制数表示 完全的字母表一般包括下列符号:拉丁字母A~Z,数字0~9,标点符号,特殊符号如&、 @、$ 、?? 、...。 字母还可分大写和小写,另外还有许多控制用符号,并考虑到扩充的可能性。符号的总数不超过256个。一个符号可以用8位二进制数来表示。主要的编码方式有3种。
① 霍勒里思码 一种IBM机器穿孔卡片的编码形式。每张卡片80列,12行。每列表示一个符号,用12位。
② 扩充的二进制编码的十进制交换码(EBCDIC码) IBM开发的8位编码,适用于IBM360和IBM370等计算机。
③ 美国标准信息交换码(ASCII码) 实际上是 7位码,附加一位校验码,一共8位。
汉字编码 汉字字符多、数量大,过去的编码系统杂乱繁复,使用与维护极不方便。这种情况给汉字信息处理系统的软件与硬件的设计和制造带来很大困难,严重阻碍汉字信息处理技术的发展。1980年中国公布了国家标准《汉字交换码,基本集》即国家标准GB2312-80信息交换用汉字编码符基本集。标准于1981年5月1日起开始执行。标准规定了信息交换用的基本图形字符及其二进制编码表示,它适用于一般汉字处理,汉字通信系统之间的信息交换。
这一标准集规定了一般符号、序号、数字、拉丁字母、汉字等共7445个图形字符。其中一般符号202个,序号60个,数字22个,拉丁字母52个,日文假名169个,希腊字母48个,俄文字母66个,汉语拼音符号26个,汉语注音字母37个,汉字6763个。根据使用频度,将汉字分为两级,第一级汉字3755个,按汉语拼音字母顺序排列,第二级汉字3008个,按部首排列。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条