1) inverted file
倒排文件
1.
The core module of search engines,namely indexer,is usually based on inverted file.
目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。
2.
Search Engine,however,retrieves data by inverted files.
然而现在的搜索引擎在检索时都采用的是倒排文件,从后缀数据技术出发探讨了压缩后缀数组(Com pressed Su ffix A rray)技术在搜索引擎技术中的应用,从而大大提高了搜索引擎的性能。
3.
By analyzing the documents and the users query logs of a real search engine,a blocking inverted file structure is proposed.
本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 。
2) inverted files
倒排文件
1.
A systematic analysis is made in the organization and the optimal merge of inverted files, a memory structure of inverted files and a realization approach are put forward, and so are an algorithm analysis for inverted files and a proof for optimal merge order.
对倒排文件的组织与最佳归并进行较系统的分析,提出了倒排文件的存储结构与实现的方法,倒排文件上的算法分析,最佳归并顺序的分析与论证。
3) fully inverted file
全倒排文件
4) compressed inverted file
压缩倒排文件
1.
This paper analyzes Chinese full-text retrieval technologies based on compressed inverted file,including data compression,file storage,searching and ranking mechanisms.
探讨基于压缩倒排文件的中文全文检索技术,包括数据压缩方法、存储、检索与排名机制。
5) multiple-inverted file
多重倒排文件
1.
The technique of multiple-inverted file and fuzzy index based on agent are also discussed in detail.
讨论了基本多重倒排文件索引算法的全文索引组织以及基于代理的模糊检索技术 ,给出了系统实现模糊检索的具体方法。
6) partially inverted file
部分倒排文件
补充资料:倒排档
计算机中存储的辅关键词索引。所谓辅关键词是指能在多个情报中同时出现的关键词,诸如情报中的主题词、作者、分类号等,它们与情报没有一一对应关系;而与情报有一一对应关系的关键词则称之为主关键词,如文献情报中的文献号、存储地址等。
倒排档记录一般总是由辅关键词及其所属情报主关键词的集合所组成,常见的组织方式有多表方式、倒排表方式和位图方式,其逻辑结构可图示如下:其中,假设字母表示辅关键词;数字表示情报的编号。也就是说,假定情报1包含辅关键词A;情报2包含辅关键词B;情报3包含辅关键词A;情报4包含辅关键词C。
位图方式为定长记录,处理简单,但存储空间浪费较多;倒排表采用变长记录,节省存储,但处理比较复杂;而多表方式使用半固定长记录,处理比倒排表简单,但比位图方式复杂,存储量比倒排表大,但比位图方式小。
正如索引能加快手工查找速度一样,在计算机建立倒排档往往也能加快情报的检索速度。联机情报检索要求实时响应,故大多数联机检索系统都使用倒排档进行检索或辅助检索。不过,建立倒排档需要时间与空间,维护也比较困难,因而一次性的定题情报检索(SDI) 系统往往都不使用倒排档;为了尽可能的减少不必要的存储,在联机情报检索中往往不对所有的辅关键词建立倒排档,而只是对常用的辅关键词:主题词、作者等建立倒排档,因此,在对倒排档检索以后,往往还要补充对原文档进行二次检索。前者人们又常称之为集合检索,后者则称之为顺序检索。
倒排档记录一般总是由辅关键词及其所属情报主关键词的集合所组成,常见的组织方式有多表方式、倒排表方式和位图方式,其逻辑结构可图示如下:其中,假设字母表示辅关键词;数字表示情报的编号。也就是说,假定情报1包含辅关键词A;情报2包含辅关键词B;情报3包含辅关键词A;情报4包含辅关键词C。
位图方式为定长记录,处理简单,但存储空间浪费较多;倒排表采用变长记录,节省存储,但处理比较复杂;而多表方式使用半固定长记录,处理比倒排表简单,但比位图方式复杂,存储量比倒排表大,但比位图方式小。
正如索引能加快手工查找速度一样,在计算机建立倒排档往往也能加快情报的检索速度。联机情报检索要求实时响应,故大多数联机检索系统都使用倒排档进行检索或辅助检索。不过,建立倒排档需要时间与空间,维护也比较困难,因而一次性的定题情报检索(SDI) 系统往往都不使用倒排档;为了尽可能的减少不必要的存储,在联机情报检索中往往不对所有的辅关键词建立倒排档,而只是对常用的辅关键词:主题词、作者等建立倒排档,因此,在对倒排档检索以后,往往还要补充对原文档进行二次检索。前者人们又常称之为集合检索,后者则称之为顺序检索。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条