所有句子都是小写的英语,没有标点符号,短语被定义为3个连续的单词 如果一句话是:我是杰西卡狩猎
所以短语将是“我是杰西卡”和“我是杰西卡狩猎”
如果短语在文件的所有句子中出现
,则该短语很常见请帮助我解决此问题的适当哈希函数
答案 0 :(得分:1)
一切顺利。我将从(3 * a + 5 * b + 7 * c)开始,其中{a,b,c}是三个连续单词的字数(或散列值)。 (当然所有未签名和模数字化)
答案 1 :(得分:0)
杰西卡 我猜你需要一个n-gram hasher而不是一句(这几乎是相同的)。 我用C语写了一个可以免费下载的超高速n-gram ripper: http://www.sanmayce.com/Downloads/index.html#Leprechaun
Leprechaun会把“我是jessica”的“句子”扯到这两个3克: i_am_jessica am_jessica_hunt
也许n-gramming也是你的事。