2) Web content extraction
网页内容抽取
3) contents of web pages
网页内容
1.
This thsis propose a method of web site classification based on key resources, and discuss two methods of selecting key resources from two aspects of contents of web pages and the topology structure of web site:(1)The method of selecting key resources based on contents of web pages:This method
本文提出了一种基于关键资源的网站分类方法,并且从网页内容以及网站拓扑结构两个角度出发,重点讨论了两种不同的网站关键资源选取方法:(1)基于网页内容的关键资源选取方法:利用网站及网页的结构特点,将网站表示成一棵多粒度树,通过合适的剪枝策略选取类别特征明显的页面作为网站的关键资源。
6) web page text extraction
网页正文提取
1.
In order to improve the performance of Lucene system in searching Chinese web pages,the technique of web page text extraction based on statistics,Chinese word segmentation module and documents for indexing pretreatment module are added into the system by analyzing the structure of Lucene.
通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。
补充资料:开放式课程网页
从2001年开始,麻省理工学院将所有课程的相关资料上网,称為开放式课程网页(MIT OpenCourseWare),是一个免费而开放的教育资源,供全世界各地的机构、学生和自学者使用。繁体中文版由朱学恆率领的志工团队所建立。
麻省理工学院「开放式课程网页」的目标:
- 对全世界的教育家、学生和自学者提供免费、可搜寻的麻省理工学院教材。
- 提供一个有效率的标準化模组,让其它的机构也可以用同样的方式来分享和出版教材。
[编辑] 外部连结
- MIT OpenCourseWare(原始英文)
- 麻省理工学院开放式课程网页(繁体中文)
- 麻省理工学院开放式课程网页(简体中文)
这个团队同时有进行简体与繁体的中文化计画。
en:MIT OpenCourseWare
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条