1) repeatable recording
可重复记录
2) identify duplicate records
重复记录
1.
In the model,an improved edit distance-based algorithm is proposed to match the strings;attributes matching graph is constructed and twice verification strategy is adopted to identify duplicate records.
这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果。
3) replayable recording
可复制记录
4) Dual Recordings
双重记录,复式记录
5) reproducible record
可重现式记录
6) approximately duplicate record
近似重复记录
1.
This paper studied the problem of detecting approximately duplicate records while receiving increments of data with no changes in data schema and matching rule set, and presented an incremental algorithm IACT (Incremental Algorithms based on Clustering Trees for data cleansing).
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT 。
2.
Based on this idea, we study the problem for detecting approximately duplicate records while receiving increments of data with no changes in data schema and matching model, and present an incremental algorithm for detecting the records.
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
补充资料:重复
分子式:
CAS号:
性质:指在相同的实验条件下进行反复测定和测量。重复的目的是估计实验误差,提高平均值的测定精度。它是费歇尔(R.A.Fisher)提出的设计试验的三个基本原则之一,其他两个原则是局部控制与随机化。
CAS号:
性质:指在相同的实验条件下进行反复测定和测量。重复的目的是估计实验误差,提高平均值的测定精度。它是费歇尔(R.A.Fisher)提出的设计试验的三个基本原则之一,其他两个原则是局部控制与随机化。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条