1) Web pages classification tree
网页分类树
2) Web page classification
网页分类
1.
Study of Web page classification based on graph-based semi-supervised learning;
一种网页分类中基于图的半指导学习算法
2.
Web page classification based on extracting hierarchy from Web site;
基于提取网站层次结构的网页分类方法
3.
A Practical Web Page Classification Technology in Network Monitor System
网络监控系统中的实用网页分类技术
3) web page categorization
网页分类
1.
Feature selection of Chinese web page categorization based on genre;
基于体裁的中文网页分类的特征选取
2.
Web page categorization has become popular with the fast growing of Internet.
互联网的发展使网页分类技术成为了研究热点,针对传统的基于统计的分类技术只能提供精确分类的情况,该文运用模糊综合评判理论进行文本分类,根据自然语言的复杂性和理解的不确定性,使分类后的网页以一定的概率分属于各个类别,真实地反映了网页信息。
3.
It is imperative to find a effective and efficient method for web page categorization.
网页分类技术是web数据挖掘的一个重要分支,是基于自然语言处理技术和机器学习学习算法的一个典型的具体应用。
4) Web classification
网页分类
1.
Study of Web classification based on hyperlink clustering;
基于Hyperlink聚类的网页分类研究
5) Webpage classification
网页分类
1.
WordNet based webpage classification system with category expansion
基于wordNet的类别可拓展网页分类系统(英文)
2.
This paper presents a new method to improve webpage classification by making use of the Hyperlinks structure information.
充分利用相邻网页(包括链入和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法。
3.
This paper describes a novel method for Webpage classification that under qualitative reasoning,which obtains the result by attribute of Webpage and relevance of swatch.
描述一种基于定性推理的网页分类方法,即通过对网页属性与样本集的相关性来得出结果。
6) Web-page classification
网页分类
1.
The study of Chinese Web-page classification based on block importance;
利用分块重要度进行中文网页分类的研究
2.
Chinese Web-page classification algorithm based on VSM
一种基于VSM的中文网页分类方法
3.
The accuracy of web-page classification can be heightened by getting rid of noisy information embedded in web pages,and the idea is utilized by our proposed summarization-based web-page classification method.
网页分类是网络挖掘的重要研究内容之一。
补充资料:树分类器
需要通过多级判别才能确定模式所属类别的一种分类方法。多级判别过程可以用树状结构表示,所以称为树分类器。例如在对0~9十个数字进行识别时,可以先根据某些特征把0,6,8,9,4分成一类(C1),把1,2,3,5,7分成一类(C2),然后根据这些特征或另外一些特征把0,6,8,9,4这一类再分成0,4,8一类 (C3)和4,6,9一类(C4)等,直到最后把各个数字分开为止(见图)。这种树状结构由节点和树枝所组成,它的特点是除了树根C0没有前级节点(父节点)以外,其余节点都有唯一的父节点(例如C的父节点是C,且所有的节点都可以从树根沿树枝所组成的路径达到。没有后继节点(子节点)的节点叫作叶,如C8,C10,C11等,其余的叫作非终止节点。每个非终止节点都只有两个子节点的树分类器,是最常用的一类树分类器,称为二分树分类器。
每个终止节点对应一个类别,为了提高树分类器的正确识别率,允许有几个叶对应同一个类别。非终止节点对应的类别是它的子节点所对应的类别的总和。
树分类器的设计需要解决以下几个问题:
① 确定树的结构。树结构影响正确识别率和平均判别次数,一般根据所研究问题的性质确定某种与正确识别率有联系的目标函数代替正确识别率,作为判断结构是否合理的标准,从树根出发在每个非终止节点寻找使目标函数达到最小(或最大)的子节点和对应的类别配置。
② 对每个非终止节点选择用于判别的特征子集,分枝限界算法能提供选择最佳特征子集的有效方法。
③ 为每个非终止节点确定判别函数,最常用的判别函数是线性判别函数。
由于在每个非终止节点需要判别的类别比较少,在多数情况下,可以用较少的特征和较简单的判别函数(因而较少的计算机时间)以达到总体上比较好的分类效果。
每个终止节点对应一个类别,为了提高树分类器的正确识别率,允许有几个叶对应同一个类别。非终止节点对应的类别是它的子节点所对应的类别的总和。
树分类器的设计需要解决以下几个问题:
① 确定树的结构。树结构影响正确识别率和平均判别次数,一般根据所研究问题的性质确定某种与正确识别率有联系的目标函数代替正确识别率,作为判断结构是否合理的标准,从树根出发在每个非终止节点寻找使目标函数达到最小(或最大)的子节点和对应的类别配置。
② 对每个非终止节点选择用于判别的特征子集,分枝限界算法能提供选择最佳特征子集的有效方法。
③ 为每个非终止节点确定判别函数,最常用的判别函数是线性判别函数。
由于在每个非终止节点需要判别的类别比较少,在多数情况下,可以用较少的特征和较简单的判别函数(因而较少的计算机时间)以达到总体上比较好的分类效果。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条