我从that网站找到了一个rabin karp代码并更改为试用。更改的代码如下。您可以在hashtable.txt中查看单词及其哈希值。对于下面的示例hashtable.txt似乎是正确的。
但是当我将M(块长度)更改为150时,我得到了错误的结果。例如,在hashtable.txt中,第一行和第六行必须相同,但它们的哈希值不同。
或者当我将q(素数)改为683303时,它也会得到错误的结果。
rabin karp算法中质数和块长度之间的关系是什么,以及错误结果的原因是什么?
#include<stdio.h>
#include<string.h>
#include <fstream>
#include <iostream>
// d is the number of characters in input alphabet
#define d 256
int M = 80;
/*
txt -> text
q -> A prime number
*/
using namespace std;
void writeTable(char *txt, int q)
{
ofstream myfile;
myfile.open ("hashtable.txt");
int N = strlen(txt);
int i, j;
int t = 0; // hash value for txt
int h = 1;
// The value of h would be "pow(d, M-1)%q"
for (i = 0; i < M-1; i++)
h = (h*d)%q;
// Calculate the hash value of pattern and first window of text
for (i = 0; i < M; i++)
{
t = (d*t + txt[i])%q;
}
// Slide the pattern over text one by one
for (i = 0; i <= N - M; i++)
{
myfile << t <<" ";
for (long z = i; z < M+i; z++){myfile<<txt[z];}myfile<<"\n";
// Calulate hash value for next window of text: Remove leading digit,
// add trailing digit
if ( i < N-M )
{
t = (d*(t - txt[i]*h) + txt[i+M])%q;
// We might get negative value of t, converting it to positive
if(t < 0)
t = (t + q);
}
}
myfile.close();
}
/* Driver program to test above function */
int main()
{
char *txt ="abcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcdeabcde";
int q = 683303; // A prime number
writeTable(txt, q);
printf("finish");
getchar();
return 0;
}
答案 0 :(得分:3)
计算
t = (d*(t - txt[i]*h) + txt[i+M])%q;
可以溢出。 txt[i]
的最大值为d-1
,h
的最大值可以与q-1
一样大。因此,如果(q-1)*(d-1)*d > INT_MAX
,则存在整数溢出的可能性。这限制了可以安全地选择INT_MAX/(d*(d-1)) + 1
的素数大小。
如果q
大于M
,则对M
的可接受值构成限制,即h <= INT_MAX/(d*(d-1))
必须
q = 683303
安全地防止溢出。
使用M = 80
和h = 182084
,您可以获得h*d*(d-1) = 182084 * 256 * 255 = 11886443520
和
INT_MAX
如果int
通常为32位宽,则大于int
。
如果您的h*256*97 = 4521509888 > 2147483647
是32位宽,那么您从头开始就会溢出示例,因为{{1}}。
答案 1 :(得分:1)
“块长度”是图案的长度。由于您的代码中没有任何模式,因此数字150没有意义,除非这是您打算使用的模式的实际长度。
散列的值必须取决于散列的数据和散列的数量。因此,“abcde”,“abcd”,“abc”的哈希值可能会有所不同。
在此算法中,您可以通过首先比较两者的哈希值来避免不必要地将模式与文本的相同长度部分进行比较。
如果散列不同,您知道两个字符序列不同且没有匹配,因此您可以移动到文本中的下一个位置并重复该过程。
如果哈希匹配,您可能会匹配两个字符序列,然后比较它们以查看是否存在真实匹配。
这是算法的主要思想,这使得它比子串搜索的朴素实现更快。
在计算哈希值时除以素数的目的是尝试获得更均匀的哈希值分布。如果你选择一个非常大的素数,它就不会有太大的影响。如果选择一个非常小的素数,则减少哈希值的总数,并增加哈希匹配的几率,从而增加进行不必要的子串比较的几率。