2) underdetermined word set
待定词集
1.
After combining of organically the recognition information on single Manchu characters from relevant system with the information on phrases to set up a statistical information database of Manchu phrases and underdetermined word sets, Bayes rules are used to synthesize the prior probability of underdetermined Manchu word sets and posterior probability of phrases.
将满文单词识别系统的识别信息和满文的词组信息有机地结合起来,建立满文词组和待定词集统计信息库,利用贝叶斯准则,综合满文待定词的后验概率和词组的先验概率信息,建立合理有效便于实现的数据结构,对满文单词识别系统输出存在的拒识词和错识词进行检测和纠正,从而有效地提高满文识别系统的识别率·实验表明:后处理性能除取决于语言模型外,还取决于后概率的精确估计·另外,在单词识别系统识别率高的情况下,后处理的纠错能力会增强
3) frequent term set
频繁词集
1.
Massive short documents classification method based on frequent term set clustering;
基于频繁词集聚类的海量短文分类方法
2.
huge volume of documents,high dimensional process and understandability of the clustering results,we propose a simple hybrid algorithm called topHDC based on top-k frequent term sets and k-means.
针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。
4) keywords set
关键词集
1.
After contrasted two search engine ranking algorithm PageRank with HITS based on link analysis and to solve the problem of the original PageRank algorithm to halve the PageRank value of the page itself,this paper presents an improved algorithm to distribute the PageRank value in light of the link weight of the web pages based on keywords set.
对比分析了基于链接分析的搜索引擎排序算法PageRank和HITS,针对原有PageRank算法采用的平分页面自身PageRank值的策略,提出了按基于关键词集的网页关联比重分配PageRank值的改进算法。
5) expansion-word set
扩展词集
6) Term Collection
词汇收集
补充资料:《敦煌曲子词集》
在敦煌发现的民间词曲总集。王重民校辑。王重民(1903~1975),字有三,原名鉴,河北高阳人。1924年考入北京高等师范学校后,研究中国古典文献,整理文史资料。毕业后长期在北京图书馆工作。1934年曾去法国,在法国国家图书馆整理敦煌遗书,将伯希和劫去的敦煌千佛洞卷子,编为《伯希和劫经录》,并选出《巴黎敦煌残卷叙录》一、二辑,摄制许多重要敦煌卷子的胶片。1952年后,任北京大学图书馆学系主任。
敦煌曲子词,为唐人写本。自敦煌石室发现后传世,但多有散佚,其中大部分先后为伯希和、斯坦因所劫走。分别收藏于巴黎国家图书馆和英京博物馆。王重民从伯希和劫走的17卷,斯坦因劫走的11卷,还有罗振玉所藏3卷及日人桥川氏藏影片1卷中,集录曲子词213首。经过校补,去掉重复的51首,编成《敦煌曲子词集》。
《敦煌曲子词集》分上中下三卷。卷首有阴法鲁序。卷末除5首补遗外,还有王国维、朱孝藏等跋语作为附录。上卷所收曲子词最多,除残者外仍近百篇,系北宋前唐五代之作。多为长短句,调式有〔菩萨蛮〕、〔西江月〕、〔浣溪沙〕等20多种词牌。内容以离情恋语为多,广泛反映了当时社会生活。中卷所收《云谣集杂曲子》,共30首,多为寄征夫、思远吏之作。反映了荡子他州,少年负信,怨妇伤情等生活内容以及征夫旷女的心绪。下卷为乐府,多是五、七言乐府诗,共15首。内容比较广泛,多系抒情之作。
《敦煌曲子词集》在词史上有重要价值,是中国文学遗产中珍贵的一部分。对研究唐代社会及民间说唱文学有重要意义。任二北在《敦煌曲初探》"弁言"中说:"自王重民编《敦煌曲子词集》载曲词百六十一首以来,国内外之敦煌曲,似已作总结集;若从事研讨,应足依据。"在敦煌曲研究方面,除王重民氏外,尚有任二北,其所著《敦煌曲初探》、《敦煌曲校录》二书也是这方面的重要成果。
敦煌曲子词,为唐人写本。自敦煌石室发现后传世,但多有散佚,其中大部分先后为伯希和、斯坦因所劫走。分别收藏于巴黎国家图书馆和英京博物馆。王重民从伯希和劫走的17卷,斯坦因劫走的11卷,还有罗振玉所藏3卷及日人桥川氏藏影片1卷中,集录曲子词213首。经过校补,去掉重复的51首,编成《敦煌曲子词集》。
《敦煌曲子词集》分上中下三卷。卷首有阴法鲁序。卷末除5首补遗外,还有王国维、朱孝藏等跋语作为附录。上卷所收曲子词最多,除残者外仍近百篇,系北宋前唐五代之作。多为长短句,调式有〔菩萨蛮〕、〔西江月〕、〔浣溪沙〕等20多种词牌。内容以离情恋语为多,广泛反映了当时社会生活。中卷所收《云谣集杂曲子》,共30首,多为寄征夫、思远吏之作。反映了荡子他州,少年负信,怨妇伤情等生活内容以及征夫旷女的心绪。下卷为乐府,多是五、七言乐府诗,共15首。内容比较广泛,多系抒情之作。
《敦煌曲子词集》在词史上有重要价值,是中国文学遗产中珍贵的一部分。对研究唐代社会及民间说唱文学有重要意义。任二北在《敦煌曲初探》"弁言"中说:"自王重民编《敦煌曲子词集》载曲词百六十一首以来,国内外之敦煌曲,似已作总结集;若从事研讨,应足依据。"在敦煌曲研究方面,除王重民氏外,尚有任二北,其所著《敦煌曲初探》、《敦煌曲校录》二书也是这方面的重要成果。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条