1) Similarity analysis of text
文本相似度分析
2) text similarity
文本相似度
1.
Study of Text Similarity Computing Based on Markov Model;
基于马尔科夫模型的文本相似度研究
2.
The text similarity computing based on word co-occurrence presented in this paper enables users to delete or maintain text collections similar to a certain text in order to improve retrieval efficiency.
本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。
3.
An efficient algorithm is proposed in this paper to compute text similarity,which considers both word frequency and words order that appears in a text.
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试。
3) similarity analysis
相似度分析
1.
Similarity analysis is conducted under the condition that rotation and scale are changed respectively and simultaneously based on the characteristics of rotation and scaled invariability of log-polar coordinates transform.
根据对数极坐标转换的尺度与旋转不变性特征,进行了角度发生变化、尺度发生变化和角度与尺度同时发生变化情况下的相似度分析。
2.
Methods After the variants had been normalized,4 methods for similarity analysis,i.
方法在对变量进行归一化处理的基础上,采用夹角余弦、相关系数、相似度D及谱图相似度等4种相似度分析方法对279例肝炎后肝硬化患者临床表征信息(症状)、生物学指标和证候进行相似性分析。
4) Text Document Similarity
文本文档相似度
5) Approximate Text Analysis
近似文本分析
1.
Research on Approximate Text Analysis Based Opinion Mining;
基于近似文本分析的意见挖掘
补充资料:印刷文本版面分析
印刷文本版面分析
printed page analysis
y inshua wenben banm一an fenxi印刷文本版面分析(printed page analysis)对印刷文本版面的排版格式进行自动分析、切分和标识的过程。实际的印刷文本可分为若干不同属性的文本块,例如标题、作者、正文、图象、图形、表格、公式、注释、页码等,正文块可由单栏、双栏、三栏等编排而成。文本块之间用空白条、直线、装饰线、花边等隔开。对于较复杂版面,要在版面理解的基础上才能正确分析和切分。版面分析和理解的任务是利用文本块本身的信息和它们编排成版面的规则等先验知识对印刷文本的文本块进行切分并对其属性和各文本块之间的连接等逻辑关系进行分析和判定,确定是否同一篇文章的文本块和它们之间的连接顺序关系。例如,通过版面分析,按标题、作者、摘要、正文(可能由不同栏目的正文块连接而成,其中包括表格)等顺序,剔除图象、图形、花边等不能识别的文本块,连接成一个完整的文字文本块的图象文件送到识别预处理(参见汉字识别前处理)环节,才能进行识别。 版面分析的基本方法是利用文本图象的水平、垂直投影确定出各文本块的边界进行切分。有自底向上和自顶向下两种分析方法。版面理解是根据各文本块内图象投影值的特征和该块在版面中的位置特点来进行的。例如,正文的某一方向投影有周期性空白行的特征,而插图的投影则无此种周期性;图象块的黑象素比图形一般要多;标题的空白间隔比正文行间隔要大,且位置一般在正文之前(横排版)等等。对各文本块的属性作出判别后,剔除图象、图形等不能识别的文本块,找出该版面中的各标题,按标题从左到右,从上到下顺序联接各文本块,就完成了该版面的分析和理解。由于实际文本版面多样、复杂,所以,在一个实用识别系统中,版面分析和理解常做成交互形式,必要时可辅以人工修改。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条