1) text auto classification
文件自动分类
2) automatic document classification
自动文件分类
4) automatic text categorization
文本自动分类
1.
Study of automatic text categorization based on CBR;
基于CBR的文本自动分类研究
2.
Research on Automatic Text Categorization System Based on Neuron Network;
基于神经网络的文本自动分类系统的研究
3.
So builds up an automatic text categorization based on agent.
文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。
5) Chinese automatic classification
中文自动分类
6) automated text categorization
文本自动分类
1.
Research on Automated Text Categorization Based on RBF Network;
基于RBF网络的文本自动分类的研究
补充资料:自动分类
用计算机系统代替人工对文献等对象进行分类。一般包含自动聚类与自动归类。
自动聚类由计算机系统按照被考察对象的内部或外部特征,根据一定的要求(如类别的数量限制,同类对象的亲近程度等等),将相近、相似或相同特征的对象聚合在一起的过程。目前常用的自动聚类方法有:关联词法、文献--文献相似矩阵法、聚丛法和因子分析法等。自动归类是指计算机系统按照一定的分类标准或分类参考,将被考察对象划归到不同类目的过程。目前常用的自动归类方法有语义分析法、语法分析法和统计法等。
在文献的手工分类过程中,人们往往根据文献的主题内容,以公认的科学分类体系(如《杜威十进分类法》、《国际十进分类法》、《中国图书资料分类法》等),来决定每篇文献的分类号。可以说,文献的分类过程,就是人们根据一定的分类标准给文献以分类号的过程。文献分类的目的是为了便于人们按文献的内在特征,即所属类别进行查找。自动分类与手工分类相比,其类目体系的决定更科学、更灵活,文献的定类更整齐划一。同时,由于劳力的限制,人工分类往往不细、不全(大多一篇文献划归一类),而自动分类则可克服这些缺点,并有很大的潜力。特别是自动聚类与自动分类的结合,将使自动分类体系具有新陈代谢的生命特征,并将为高效的聚类检索奠定基础。
文献的自动分类研究始于20世纪60年代初,最早是由R.M.尼达姆等人进行的。从马罗的第一个自动分类模型发展至今,无论在理论研究上还是实际运用上均取得相当的进展。由于种种原因,特别是中文计算机处理能力的限制,在中国关于自动分类的研究还刚刚开始不久。
由于计算机自动分析主题等研究还没有取得实质性的进展,所以,现在自动分类大部分都建立在题中或文摘中关键词的基础上,它的缺点是不能准确地按文献主题分类。但据有关资料表明,专家的偏爱也常使其分类的质量与普通标引员的分类质量相差无几,而自动分类现有的水平与之也差不多,然而其速度与规定性则是手工分类无法比拟的。因此,它正在受到人们越来越大的重视,成为情报检索中一个重要的研究与发展方向。特别是它与聚类检索的结合,将使其有更强的生命力。
自动聚类由计算机系统按照被考察对象的内部或外部特征,根据一定的要求(如类别的数量限制,同类对象的亲近程度等等),将相近、相似或相同特征的对象聚合在一起的过程。目前常用的自动聚类方法有:关联词法、文献--文献相似矩阵法、聚丛法和因子分析法等。自动归类是指计算机系统按照一定的分类标准或分类参考,将被考察对象划归到不同类目的过程。目前常用的自动归类方法有语义分析法、语法分析法和统计法等。
在文献的手工分类过程中,人们往往根据文献的主题内容,以公认的科学分类体系(如《杜威十进分类法》、《国际十进分类法》、《中国图书资料分类法》等),来决定每篇文献的分类号。可以说,文献的分类过程,就是人们根据一定的分类标准给文献以分类号的过程。文献分类的目的是为了便于人们按文献的内在特征,即所属类别进行查找。自动分类与手工分类相比,其类目体系的决定更科学、更灵活,文献的定类更整齐划一。同时,由于劳力的限制,人工分类往往不细、不全(大多一篇文献划归一类),而自动分类则可克服这些缺点,并有很大的潜力。特别是自动聚类与自动分类的结合,将使自动分类体系具有新陈代谢的生命特征,并将为高效的聚类检索奠定基础。
文献的自动分类研究始于20世纪60年代初,最早是由R.M.尼达姆等人进行的。从马罗的第一个自动分类模型发展至今,无论在理论研究上还是实际运用上均取得相当的进展。由于种种原因,特别是中文计算机处理能力的限制,在中国关于自动分类的研究还刚刚开始不久。
由于计算机自动分析主题等研究还没有取得实质性的进展,所以,现在自动分类大部分都建立在题中或文摘中关键词的基础上,它的缺点是不能准确地按文献主题分类。但据有关资料表明,专家的偏爱也常使其分类的质量与普通标引员的分类质量相差无几,而自动分类现有的水平与之也差不多,然而其速度与规定性则是手工分类无法比拟的。因此,它正在受到人们越来越大的重视,成为情报检索中一个重要的研究与发展方向。特别是它与聚类检索的结合,将使其有更强的生命力。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条