查找文本重复 - 易于实现

时间:2013-02-11 17:19:17

标签: algorithm text duplicates

我正在寻找一些很好的易于实现的算法来查找我的cms中的重复文本。 实际上我正在将文本保存到额外的列,删除了空格,并将所有字符设置为小写,这样我就可以找到重复项,如果它们的空格和字母数量不同,但这还不够。

我如何处理两个文本因字符不同而我又希望它们被识别为重复的情况?

1 个答案:

答案 0 :(得分:0)

此问题的简单解决方案是使用Soundex检查。您将每个单词转换为Soundex等效单词,消除小单词,如果记录相同,则匹配。原油,但有效。