1) domain independent dictionary free lexical acquisition
非受限无词典抽词
1.
A domain independent dictionary free lexical acquisition model is presented in this paper,which introduces a self increasing algorithm to acquire the co occurrence patterns of Chinese characters,and introduces some criteria such as support and confidence to filter these co occurrence patterns to get lexical items.
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。
2) word-extracting dictionary
抽词词典
1.
Based on a probe of procedures of realizing ATC,some proposals are presented for improving automatic categorizing,including building word-extracting dictionary with reductional method,selecting features with voting method,hierarchical text categorization with step-by-step categorization algorithm,and building categorization algorithm by integrating statistics wit.
具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等。
2.
Using the principles of rotated Keywords for reference and in combination with the relevant statistical models,this article compresses and optimizes the original word-extracting dictionary in both positive and negative directions so as to achieve the goal of reducing the number of dimensions and accurately expressing the themes.
本文借鉴了关键词轮排原理,结合相关统计模型,从正反两个方面对原始抽词词典进行压缩和优选,以达到降维和准确表达主题的目的;并基于海量新闻文本进行了自动分类测试,结果表明该约简算法在构造核心关键词词典方面是可行的。
3) Bilingual Dictionary
词典抽取
1.
Bilingual Dictionary Extraction for Special Domain Based on Web Text Data;
基于互联网文本数据的特定领域双语词典抽取
4) Chinese word segmentation without thesaurus
无词典分词
1.
For the first problem, this study tries to introduce a method of Chinese word segmentation without thesaurus based on recurrence.
本研究针对中文自动分词问题,尝试引入一种基于重现原理的无词典分词方法,通过对分词结果的分析,初步证实了该分词方法在中文生物医学文献相关性数据库构建过程中应用的可行性;针对文献相关性判定时间复杂度问题,尝试提出“倒排-SIM法”,较明显提高了文献相关性判定的速度,为中文生物医学文献相关性数据库的应用实践做了技术上的铺垫。
5) No Dictionary
无词典
1.
A method of Extract Chi-nese Characteristic Words from the Sets of Docu-ments with No Dictionary;
无词典的中文文档集特征词抽取方法
6) limited words
受限词汇
补充资料:游程长度受限码
游程长度受限码
run length limited code, RLLC
youCheng chQngdu Shouxianma游程长度受限码(runlengthli而tedcode,RLLC)对记录序列中1和。的游程长度均作限制的一类信道编码。广泛应用于现今高速数据通信的传输码和高密度数字磁记录系统的记录编码中。在通信系统中,将连续l个1或0构成的二进制数据串称为长度为l的游程。在磁记录系统中,为了实现高密度记录,要避免读出脉冲相互干扰出现拥挤,应该对1游程进行限制;为了容易从读出脉冲序列中提取自同步脉冲,又要对0游程进行限制。RLLC的编码规则是:先将m位输人数据序列变换成0游程受限码,即n位输出记录序列中两个相邻的1之间至少有d个0,最多为k个O。其中,d,k称为约束参数(均为正整数)。因此,RLLC码又称d,k受限码。RLLC编码实质上是一种码制变换。类似于二进制与十进制间的变换,但RLLC变换的“权”不是刁或1伊(其中少为正整数),而是某种特殊的数列。当k=1时该数列就是斐波那契(L.Fi-加naeei)数列;k>1时,为广义斐波那契数列。RLLC理论是本世纪70年代逐步形成、完善的。它既能指导记录编码的设计和工程实现,又能对当今数字磁记录主要实用码型进行统一的数学描述、理论概括和评价。RLLC的统一数学描述比较严谨、抽象。通常利用(d,如m,n,r)结构形式表示,以易于将各种码型进行分类并对其主要性能作定量评价。其中,d,k为约束参数;m表示输人数据序列的位数,m)1;n表示变换成d,k受限的记录序列后的位数,因为要删除一些不符合约束条件的序列(非法码字),显然n)m和2”)2跳是选取n的必要条件。一般m/n之值保持不变。r是变换参数,即变换过程中数据串的最大长度与最小长度的比值。d,k,m,n,r称为RLLC的结构参数,均为正整数。利用结构参数可以将各种RLLC码型进行分类:①m=1的一类码称为按位编码;从>1的一类码称为成组编码。②r二1,表示分组长度固定的编码类型;r>1,表示分组长度可变的成组编码。 RLLC的构造(编译码过程)和其结构参数密切相关。除未经编码的不归零制(NRZ)、逢1变化不归零制(NRZI)以及加扰码(包括段ranlbleNRZ,rarld创1llzed NRZ)外,绝大多数早期及现今实用码型均属RLLC。如果将NRZ,NRZI用RLLC结构参数表示,它们均为(0,co;1,1,1)码。 相位编码(PE)也称调相制(PM)。其编码规则是:记录1时,磁化状态由负电平(或负脉冲)变正电平(或正脉冲);记录0时,磁化状态由正变负,两者相位差180。。PE的编码规则见表1。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条