1) index word clustering map
索引词聚类图
3) term clustering
检索词聚类
4) recursive clustering indexing tree
递归聚类索引树
6) clustering search engine
聚类搜索引擎
1.
Research on the development-track of search engine and the development situation of domestic and oversea clustering search engines.
分析研究搜索引擎发展轨迹及国内外聚类搜索引擎的发展现状,通过对国内外现有聚类搜索引擎的基本功能进行分析,并从聚类方式、聚类结果展示形式和聚类效果三个角度进行测评,提出"以用户为中心"的聚类2。
补充资料:关键词索引
以出现在文献题名(或正文及文摘)中的描述文献主题内容的关键词为标目的字顺索引。它将每个关键词轮排于索引款目中的标目位置,以提供多个检索入口。一般分为两类:一类是带上下文的索引,如题内关键词索引、题外关键词索引、双重关键词索引等;另一类是不带上下文的索引,如单纯关键词索引和词对式关键词索引。关键词索引通常用计算机编制,较为简便,适用于快速报道文献和进行浏览性文献检索。由于关键词属未经规范的自然语言,利用关键词索引难于查全同一主题的文献,一般不用于编制累积索引。
简史 西方15~16世纪出现的《圣经索引》和19世纪前期英、德等国家图书馆目录中的主词款目,已带有关键词索引的性质。1856年英国A.克里斯塔多罗的《图书馆编目技术》一书中出现了对关键词索引法的最早论述。1958年美国H.P.卢恩和P.B.巴克森德尔同时向在华盛顿召开的国际科学情报会议提交关于用穿孔卡片分检机编制关键词索引的论文。次年,卢恩发表题为《技术文献的上下文关键词索引》的论文。此后他又致力于用计算机自动编制题内关键词索引的研究,使机编关键词索引逐步在科技检索刊物中得到应用。20世纪60年代以后,在题内关键词索引的基础上又陆续产生了题外关键词索引、双重关键词索引等一系列新品种。对关键词索引的研究,促进了自动标引的实现和全文数据库的建立。70年代以来,中国的一些图书馆、情报机构已开始用机编关键词索引技术编制图书馆目录和检索刊物的主题索引。
题内关键词索引 简称KWIC,又称上下文关键词索引。是最早出现的机编索引,首先应用于1960年美国化学文摘社创办的《化学题录》。题内关键词索引的标目在款目的中部,左右均为该标目的上下文;索引款目按位于款目中部作为标目的关键词的字顺排列。格式如:
KWIC的设计思想是:①文献题名通常具有揭示文献主题内容的作用,从题名中抽取的关键词能有效地将用户指向相关主题的文献;②保留题名中关键词前后的上下文,有助于说明关键词的含义,可用作限定标目含义的说明语。
KWIC的编制步骤包括:①把经过人工处理的文献题名(包括增补的关键词)输入计算机。②计算机用"非用词表"剔除题名中的介词、连词、冠词等,筛选出有检索意义的关键词。③将每个关键词依次轮流用作索引标目,同时保留其上下文。若题名过长,可以截断或移位。④编成索引款目,并进行编排加工,最后交付印刷。上述工序除第一步由人工完成外,其余皆由计算机完成。例如,一篇题为Play therapy for maladjusted children(《孤僻儿童的游戏疗法》)的论文,输入计算机后可产生以下几条索引款目:
检索时先在索引款目中部找到与检索课题有关的关键词,再查看其左右的上下文,寻找切题的文献。
题外关键词索引 简称KWOC。最早出现的KWIC改进形式。与KWIC相比,其标目的位置不在款目的中部而是在款目的左端或提行至左上方,标目之后(或之下)仍保留完整的文献题名。其款目格式为:编制时依次轮流将题名中的每个关键词置于标目的位置,原题名中的关键词也可用一符号(如星号)代替,题名之后注明文献地址,最后款目按关键词的字顺排列起来。上例如按KWOC编制,可产生以下几条款目:
children
play therapy for maladjusted *3000
maladjusted
play therapy for *children 3000
play
*therapy for maladjusted children 3000
therapy
play * for maladjusted children 3000
KWOC因标目位置突出,款目形式与普通主题索引接近,可读性比题内关键词索引强,符合用户的检索习惯。但所占篇幅比KWIC大,并容易造成复合主题的文献在字顺序列中被分散在多处。
双重关键词索引 也称双重上下文关键词索引,是KWIC和KWOC的结合形式,由美国A.E.彼特拉克于1969年创制。其特点是双重标目,主标目(第一关键词)在题名之外,副标目(第二关键词)在题名的左端。索引款目共2行,其格式如:双重关键词索引兼有 KWIC及KWOC的优点,使用较为方便,但索引篇幅大,编印成本高。前例如编双重关键词索引,可产生下列几条索引款目:
children
maladjusted children/play therapy for 3000
play therapy for maladjusted children/3000
therapy for maladjusted children/play 3000
maladjusted
children/play therapy for maladjusted 3000
play therapy for maladjusted children/3000
therapy for maladjusted children/play 3000
play
..............................
单纯关键词索引 纯粹由若干关键词组成的索引。其索引款目格式是:一般从题名、文摘或正文中抽出1~5个关键词,将每一个关键词依次轮流移至款目的左端或左上方作为标目,将其余关键词用作说明语。例如美国《化学文摘》中一篇题为"Acetylene crackingfrom heavy oil"的文献(文献地址为76733W ),可产生以下索引款目:
acetylene
heavy oil cracking 76733W
cracking
heavy oil acetylene 76733W
heavy
oil cracking acetylene 76733W
单纯关键词索引的制作较为简单,它具有标引深度较大而索引篇幅较小的优点,但由于它不带上下文,没有语法结构,难于判断索引款目的含义,查准率较低。
词对式关键词索引 由一对关键词组成的索引。其原理与双重关键词索引相似,只是不带上下文。由于款目轮排时采用数学中的排列原理,因此又称为轮排主题索引。1967年美国费城科学情报研究所(ISI)首创,最先用于编制《科学引文索引》的主题索引。格式如:如第一例编成词对式关键词索引, 可以产生以下 6条款目(款目按标目的字顺排列):
children
maladjusted 3000
children
play therapy 3000
maladjusted
children 3000
maladjusted
play therapy 3000
play therapy
children 3000
play
maladjusted 3000
这种索引的性能与单纯关键词索引相同,可用计算机自动编制,检索也较为方便,但查全率和查准率都较低。
简史 西方15~16世纪出现的《圣经索引》和19世纪前期英、德等国家图书馆目录中的主词款目,已带有关键词索引的性质。1856年英国A.克里斯塔多罗的《图书馆编目技术》一书中出现了对关键词索引法的最早论述。1958年美国H.P.卢恩和P.B.巴克森德尔同时向在华盛顿召开的国际科学情报会议提交关于用穿孔卡片分检机编制关键词索引的论文。次年,卢恩发表题为《技术文献的上下文关键词索引》的论文。此后他又致力于用计算机自动编制题内关键词索引的研究,使机编关键词索引逐步在科技检索刊物中得到应用。20世纪60年代以后,在题内关键词索引的基础上又陆续产生了题外关键词索引、双重关键词索引等一系列新品种。对关键词索引的研究,促进了自动标引的实现和全文数据库的建立。70年代以来,中国的一些图书馆、情报机构已开始用机编关键词索引技术编制图书馆目录和检索刊物的主题索引。
题内关键词索引 简称KWIC,又称上下文关键词索引。是最早出现的机编索引,首先应用于1960年美国化学文摘社创办的《化学题录》。题内关键词索引的标目在款目的中部,左右均为该标目的上下文;索引款目按位于款目中部作为标目的关键词的字顺排列。格式如:
KWIC的设计思想是:①文献题名通常具有揭示文献主题内容的作用,从题名中抽取的关键词能有效地将用户指向相关主题的文献;②保留题名中关键词前后的上下文,有助于说明关键词的含义,可用作限定标目含义的说明语。
KWIC的编制步骤包括:①把经过人工处理的文献题名(包括增补的关键词)输入计算机。②计算机用"非用词表"剔除题名中的介词、连词、冠词等,筛选出有检索意义的关键词。③将每个关键词依次轮流用作索引标目,同时保留其上下文。若题名过长,可以截断或移位。④编成索引款目,并进行编排加工,最后交付印刷。上述工序除第一步由人工完成外,其余皆由计算机完成。例如,一篇题为Play therapy for maladjusted children(《孤僻儿童的游戏疗法》)的论文,输入计算机后可产生以下几条索引款目:
检索时先在索引款目中部找到与检索课题有关的关键词,再查看其左右的上下文,寻找切题的文献。
题外关键词索引 简称KWOC。最早出现的KWIC改进形式。与KWIC相比,其标目的位置不在款目的中部而是在款目的左端或提行至左上方,标目之后(或之下)仍保留完整的文献题名。其款目格式为:编制时依次轮流将题名中的每个关键词置于标目的位置,原题名中的关键词也可用一符号(如星号)代替,题名之后注明文献地址,最后款目按关键词的字顺排列起来。上例如按KWOC编制,可产生以下几条款目:
children
play therapy for maladjusted *3000
maladjusted
play therapy for *children 3000
play
*therapy for maladjusted children 3000
therapy
play * for maladjusted children 3000
KWOC因标目位置突出,款目形式与普通主题索引接近,可读性比题内关键词索引强,符合用户的检索习惯。但所占篇幅比KWIC大,并容易造成复合主题的文献在字顺序列中被分散在多处。
双重关键词索引 也称双重上下文关键词索引,是KWIC和KWOC的结合形式,由美国A.E.彼特拉克于1969年创制。其特点是双重标目,主标目(第一关键词)在题名之外,副标目(第二关键词)在题名的左端。索引款目共2行,其格式如:双重关键词索引兼有 KWIC及KWOC的优点,使用较为方便,但索引篇幅大,编印成本高。前例如编双重关键词索引,可产生下列几条索引款目:
children
maladjusted children/play therapy for 3000
play therapy for maladjusted children/3000
therapy for maladjusted children/play 3000
maladjusted
children/play therapy for maladjusted 3000
play therapy for maladjusted children/3000
therapy for maladjusted children/play 3000
play
..............................
单纯关键词索引 纯粹由若干关键词组成的索引。其索引款目格式是:一般从题名、文摘或正文中抽出1~5个关键词,将每一个关键词依次轮流移至款目的左端或左上方作为标目,将其余关键词用作说明语。例如美国《化学文摘》中一篇题为"Acetylene crackingfrom heavy oil"的文献(文献地址为76733W ),可产生以下索引款目:
acetylene
heavy oil cracking 76733W
cracking
heavy oil acetylene 76733W
heavy
oil cracking acetylene 76733W
单纯关键词索引的制作较为简单,它具有标引深度较大而索引篇幅较小的优点,但由于它不带上下文,没有语法结构,难于判断索引款目的含义,查准率较低。
词对式关键词索引 由一对关键词组成的索引。其原理与双重关键词索引相似,只是不带上下文。由于款目轮排时采用数学中的排列原理,因此又称为轮排主题索引。1967年美国费城科学情报研究所(ISI)首创,最先用于编制《科学引文索引》的主题索引。格式如:如第一例编成词对式关键词索引, 可以产生以下 6条款目(款目按标目的字顺排列):
children
maladjusted 3000
children
play therapy 3000
maladjusted
children 3000
maladjusted
play therapy 3000
play therapy
children 3000
play
maladjusted 3000
这种索引的性能与单纯关键词索引相同,可用计算机自动编制,检索也较为方便,但查全率和查准率都较低。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条