1) web page text extraction
网页正文提取
1.
In order to improve the performance of Lucene system in searching Chinese web pages,the technique of web page text extraction based on statistics,Chinese word segmentation module and documents for indexing pretreatment module are added into the system by analyzing the structure of Lucene.
通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。
2) Web content
网页正文
1.
Web content extraction method based on logic lines and maximum admitting distances
基于逻辑行和最大接纳距离的网页正文抽取
补充资料:关正文
关正文
北京人。1982年毕业于北京师范大学中文系。历任北京师范学院中文系教师,作家出版社编辑,中外文化出版公司编辑、国际合作部主任,《小说选刊》杂志编辑、事业部主任,副编审。1998年加入中国作家协会。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条