使用哈希函数删除重复的内容/文本

时间:2013-09-19 07:38:17

标签: ruby-on-rails ruby ruby-on-rails-3 hash

我有一个包含大量内容的网站,我正在努力删除重复项。为此我需要比较两个字符串并检查它们的匹配百分比。我正在使用ruby simhash gem:https://github.com/bookmate/simhash

gem接受一个字符串并返回一个整数哈希。我不确定如何比较两个哈希。

X = 'King Gillette'.simhash(:split_by => //)

y = 'King Camp Gillette'.simhash(:split_by => //) 

X >> 13716569836

y >> 13809628900

我可以采取差异然后百分比吗?这是否表明字符串之间存在差异?

1 个答案:

答案 0 :(得分:0)

如果要删除这些字符串的重复方式 或者你想要字符串之间的差异如果我正确,那么你只需要做到这一点....

>>a1='King Gillette'.split(" ")  
>>=> ["King", "Gillette"]  
>>a2='King Camp Gillette'.split(" ")  
>>=> ["King", "Camp", "Gillette"]  
>> a2-a1  
>>["Camp"]