1) document length
文档长度
2) document overlength
文档过长
3) file length
档案长度
4) document frequency
文档频度
1.
Then a new PFS query term weighting scheme is proposed, which takes document frequency (DF) into account instead of the traditional IDF fa.
对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型。
5) long span
长跨度,长档距
6) document attention algorithm
文档关注度
补充资料:文档
按一定的结构归档到计算机存储设备上的情报资料。这些资料以记录的形式存储,因此,文档也可视为按一定结构组织的记录的集合。
file源于拉丁语filum,原意是"把信件、收据和纸张等串起来的绳索",随着社会的发展,这个词逐渐地转意为"归档的资料"(documents filed),因此也有人把file 称为文件、资料档、案卷。现在,在电子计算机情报检索领域中,大多称之为文档。
顺排档和倒排档是在情报检索领域中较常用的两种文档。文档可以有各种各样的存取方法,最早的文档是存储在纸带、磁带这样的存储介质上的,要存取一个记录,必须一个记录一个记录查找,这类文档称之为顺排档。在情报检索中常用的主文档大多是顺排档。随着计算机的发展,相继出现了磁鼓、磁盘等可直接存取信息的存储器。技术的进步引起了文档存取方法的革新,这样就出现了在存取文档记录时不必一个记录一个记录顺序扫描,只需给出记录的地址就能对记录进行直接存取的所谓随机文档。在情报检索中,一篇文献往往占一个文档记录,为了达到从文献的检索标志快速查找文献的目的,必须解决检索标志到记录存储地址的快速转换问题。解决这个问题的办法之一就是在计算机中除顺排档之外,再存储一个联系检索标志(如关键词、作者等)与相应情报标识(如记录存储地址)的索引文档。联机情报检索中用的倒排档就是索引文档的一种。解决这个问题的办法之二,就是根据某种算法存储或取出情报,这样建立的文档通常称之为杂凑文档。
文档的集合可构成所谓的数据库。文档管理系统是以文档记录为单位进行存取的,数据库管理系统,则以构成记录的数据项为存取单位,因此,它允许用户以不同的应用目的去共享数据库中的情报。
file源于拉丁语filum,原意是"把信件、收据和纸张等串起来的绳索",随着社会的发展,这个词逐渐地转意为"归档的资料"(documents filed),因此也有人把file 称为文件、资料档、案卷。现在,在电子计算机情报检索领域中,大多称之为文档。
顺排档和倒排档是在情报检索领域中较常用的两种文档。文档可以有各种各样的存取方法,最早的文档是存储在纸带、磁带这样的存储介质上的,要存取一个记录,必须一个记录一个记录查找,这类文档称之为顺排档。在情报检索中常用的主文档大多是顺排档。随着计算机的发展,相继出现了磁鼓、磁盘等可直接存取信息的存储器。技术的进步引起了文档存取方法的革新,这样就出现了在存取文档记录时不必一个记录一个记录顺序扫描,只需给出记录的地址就能对记录进行直接存取的所谓随机文档。在情报检索中,一篇文献往往占一个文档记录,为了达到从文献的检索标志快速查找文献的目的,必须解决检索标志到记录存储地址的快速转换问题。解决这个问题的办法之一就是在计算机中除顺排档之外,再存储一个联系检索标志(如关键词、作者等)与相应情报标识(如记录存储地址)的索引文档。联机情报检索中用的倒排档就是索引文档的一种。解决这个问题的办法之二,就是根据某种算法存储或取出情报,这样建立的文档通常称之为杂凑文档。
文档的集合可构成所谓的数据库。文档管理系统是以文档记录为单位进行存取的,数据库管理系统,则以构成记录的数据项为存取单位,因此,它允许用户以不同的应用目的去共享数据库中的情报。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条