我在Java中寻找一些重复的匹配算法。我有senario即
我有两个表。表1包含一个coloumn中的25,000个记录字符串,类似地,表2包含20,000个记录字符串。 我想检查表1和表2中的重复记录。 记录就像这种格式,例如:
表1
Jhon,voltra
布鲁斯威利斯
表2
voltra jhon
布鲁斯,威利斯
寻找algoirthm,它可以在两个不同的文件中找到这两种表格的复制字符串。 您是否可以帮助我解决两个或更多可以用Java执行此类查询的算法。
答案 0 :(得分:5)
Read the two files成normalised表单,以便进行比较。使用这些条目中的Set和retainAll()
来查找这两个集合中的intersection。这些是重复的。
答案 1 :(得分:0)
您可以使用Map<String, Integer>
(例如HashMap
)并逐行读取文件并将字符串插入地图,每次找到现有条目时都会递增值。
然后,您可以搜索地图,找到所有带有计数&gt;的条目。 1。