我有一个包含大量内容的网站,我正在努力删除重复项。为此我需要比较两个字符串并检查它们的匹配百分比。我正在使用ruby simhash gem:https://github.com/bookmate/simhash
gem接受一个字符串并返回一个整数哈希。我不确定如何比较两个哈希。
X = 'King Gillette'.simhash(:split_by => //)
y = 'King Camp Gillette'.simhash(:split_by => //)
X >> 13716569836
y >> 13809628900
我可以采取差异然后百分比吗?这是否表明字符串之间存在差异?
答案 0 :(得分:0)
如果要删除这些字符串的重复方式 或者你想要字符串之间的差异如果我正确,那么你只需要做到这一点....
>>a1='King Gillette'.split(" ")
>>=> ["King", "Gillette"]
>>a2='King Camp Gillette'.split(" ")
>>=> ["King", "Camp", "Gillette"]
>> a2-a1
>>["Camp"]