Java中的复制算法

时间:2012-11-26 14:59:18

标签: java algorithm deduplication

我在Java中寻找一些重复的匹配算法。我有senario即

我有两个表。表1包含一个coloumn中的25,000个记录字符串,类似地,表2包含20,000个记录字符串。 我想检查表1和表2中的重复记录。 记录就像这种格式,例如:

表1

Jhon,voltra

布鲁斯威利斯

表2

voltra jhon

布鲁斯,威利斯

寻找algoirthm,它可以在两个不同的文件中找到这两种表格的复制字符串。 您是否可以帮助我解决两个或更多可以用Java执行此类查询的算法。

2 个答案:

答案 0 :(得分:5)

Read the two filesnormalised表单,以便进行比较。使用这些条目中的SetretainAll()来查找这两个集合中的intersection。这些是重复的。

答案 1 :(得分:0)

您可以使用Map<String, Integer>(例如HashMap)并逐行读取文件并将字符串插入地图,每次找到现有条目时都会递增值。

然后,您可以搜索地图,找到所有带有计数&gt;的条目。 1。