1) Word segmentation\Word attribute\Sentence analysis\Discourse marker
汉语分词\词性\汉语语句分析\关联词语
2) Chinese word segmentation
汉语分词
1.
Optimization of Chinese word segmentation based on neural network;
基于神经网络汉语分词模型的优化
2.
Chinese word segmentation arithmetic based on the degree of combination;
基于组合度的汉语分词决策算法研究
3.
Research of Chinese Word Segmentation with Conditional Random Fields;
基于条件随机场的汉语分词研究
3) Chinese segmentation
汉语分词
1.
CCSS——Case of Chinese Segmentation Solution;
CCSS——一个彻底解决汉语分词的方案
2.
Research on Chinese Segmentation and Unlisted Words Identification for Chinese Information Retrieval;
信息检索用汉语分词与未登录词识别技术研究
3.
Unknown word identification has always been a key and open problem for Chinese segmentation.
未登录词的识别一直是汉语分词研究的焦点和难点,本文通过对各类未登录词的用字频率及上下文进行了详细地分析,提出一种基于混合策略的未登录词识别方法。
4) Chinese word-split and sentence-split
汉语分词分句
1.
With the progress of natural language applications, it is more and more important to improve the validity of Chinese word-split and sentence-split, which is the basic of natural language process.
本文在目前汉语分词分句技术和各种评判机制的深入研究和分析的基础上,借鉴了人们在类似问题上的思考模式,选择以语义知识库为问题的突破口,利用汉语词与词之间详细而复杂的关系网络,试图找到一种度量方法以确定其是否搭配。
5) Chinese lexical analysis
汉语词法分析
1.
Research of applying conditional random fields to Chinese lexical analysis;
应用条件随机场进行汉语词法分析研究
2.
This thesis presents an approach for Chinese lexical analysis using hierarchical hidden Markov model (HHMM), which aims to incorporate Chinese word segmentation, Part-Of-Speech tagging, disambiguation and named entity identification into an integrated theoretical frame.
本文提出了一种基于层次隐马尔可夫模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和命名实体识别集成到一个完整的理论框架中。
6) Chinese words
汉语词语
1.
On the basis of prior linguistic research into gender, the article studies the six specified issues springing from the relations between gender and Chinese words.
本文在综述前人性别语言研究的基础上,就汉语词语与性别的关系,研究六个具体问题: 一、词语的性别歧视:“他”为老字号,“她”为“分店”:把女性视为男性的附属;把女性当作例外;男女称谓不对等;女性的称谓缺位;贬义词语女性多于男性;丑化妇女的词语更形象;女性名词“贬义化”,男性名词“褒义化”;男先女后的语序。
补充资料:汉语
汉语 世界主要语言之一。属汉藏语系,是这个语系里最主要的语言。除了中国大陆和台湾省以外,汉语还分布在新加坡、马来西亚等地。以汉语为母语的人大约超过11亿。汉语是联合国工作语言之一。汉语的标准语是近几百年来以北方官话为基础逐渐形成的。它的标准音是北京音。汉语的标准语在中国大陆称为普通话,在台湾称为国语,在新加坡、马来西亚称为华语。 语音 汉语的音节可以分析成声母、韵母、声调3部分。为首的音是声母,其余的部分是韵母,声调是整个音节的音高。汉语的声调是辨义的。声母都是辅音。最复杂的韵母由介音、主要元音和韵尾3部分组成。韵尾有的是辅音,有的是元音。北京音的辅音声母有22个。介音有〔i〕、〔u〕、〔y〕3个。辅音韵尾有〔n〕和〔〕,元音韵尾有〔i〕和〔u〕。汉语的声调是一个音节发音时音高的高低升降的形式。北京话的声调有阴平、阳平、上声、去声4种形式。 语法 汉语语素绝大部分是单音节的(手/洗/玻/萝)。语素和语素可以组合成词(马+路→马路/开+关→开关)。有的语素本身就是词(手、洗),有的语素本身不是词,只能跟别的语素一起组成复合词(玻→玻璃/萝→萝卜)。比较汉语和印欧语系的语言,可以看出汉语语法上的一些重要的特点。汉语和印欧语的一个明显的区别是没有形态的变化。第一,印欧语的动词和形容词后头可以加上一些只改变词根的语法性质而不改变其词汇意义的后缀。而汉语没有此类后缀。第二,印欧语的动词有限定式和非限定式的区别。汉语没有这种区别。这种差异使得汉语语法和印欧语语法大异其趣。首先,在印欧语里,词类的功能比较单纯。例如名词只能充任主语和宾语,形容词只能充任定语和表语。在汉语里,由于动词和形容词不变形,无论在什么句法位置上出现,形式都一样。这样就造成了汉语词类多功能的现象。其次,印欧语的句子和分句里必须有限定式动词,而词组里要有动词的话,只能是非限定形式,不能是限定形式。因此,句子和分句是一套构造原则,词组是另一套构造原则。汉语的动词没有限定式和非限定的对立,动词不管用在哪里,形式都一样,因此句子的构造原则跟词组的构造原则是一致的;句子不过是独立的词组而已。汉语句法结构的特点还表现在主谓结构和动补结构上。汉语的主谓结构跟印欧语的句子或分句不同,构造比较松散。这表现在主语后头可以有停顿,或者加上语气词。特别值得注意的是口语里常常没有主语。主谓结构的另一特点是可以充当谓语。动补结构是现代汉语里非常重要的一种句法结构。印欧语里没有与它相对应的格式。从词序方面看,汉语一个重要的特点是所有的修饰语都必须放在被修饰成分的前边。 文字 从出土的远古时代的文物来考查,汉字早在公元前3000年以前新石器时代就产生了。汉字的发展可以划分为两个大阶段。从甲骨文字到小篆是一个阶段;从秦汉时代的隶书以下是另一个阶段。前者属于古文字的范畴,后者属于近代文字的范畴。大体说来,从隶书到今天使用的现代汉字形体上没有太大的变化。从汉字跟汉语的关系看,汉字是一种语素文字。汉字代表的是汉语里的语素。汉字有独体字与合体字的区别。从构造上讲,合体字比独体字高一个层次。合体字可以分成以下3类:①形声字。由表示意义的形旁和表示读音的声旁两部分组成。②合体会意字。是会合偏旁的字义来表现整个合体字的意义。③合体记号字。这种合体字的偏旁既不表意,也不表音。跟拼音文字相比,汉字最大的长处是能够超越空间和时间的限制。 方言 中国幅员辽阔,人口众多,方言情况复杂。汉语的方言大致分为官话和非官话两大类。官话分布在长江以北地区和长江南岸九江与镇江之间的沿江地带以及湖北、四川、云南、贵州四省和广西中部,包括北方官话、江淮官话、西南官话几个方言区。官话方言内部的一致程度较高。非官话方言包括吴方言(江苏南部,浙江大部)、赣方言(江西大部)、湘方言(湖南大部,广西北部)、粤方言(广东大部,广西东南部)、闽方言(福建,台湾,广东潮州、汕头,海南)、客家方言(广东东部和北部,福建西部,江西南部,台湾)。非官话方言差别大,彼此一般不能通话,甚至在同一个方言区内部,交谈都有困难。汉语各方言之间语音上的差别最大,词汇次之,语法方面的差别最小。中国现行政策规定,国家推广普通话作为全民族共同的交际语言。 语体和词汇 汉语书面语和口语的相当大的差别自古存在。以唐宋时代为例,当时人口里说的是白话,笔下写的是文言。五四运动时期开展的文学革命提出了反对文言文,提倡白话文的主张。1949年中华人民共和国建立后,文言文才让位给白话文。书面语在词汇方面的特点是双音词的比重大。书面语双音词除了从文言文里继承下来的一部分外,另一部分是从日文转借过来的或是新造的。汉语词库里保存了与藏缅语族共有的原始词根和与壮侗语族共有(或借自该语族)的词根。由于汉文化的发达,汉语词汇极为丰富,而且形成了独特的风格。现代西方语言的借词通常要经过改造才能进入汉语。 |
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条