到目前为止,我有这段代码,总的来说,它在cmd中获取两个文本文件和一个指定的块大小,并标准化txt文件,然后根据指定的块大小将它们放入块中。
import java.io.*;
import java.util.*;
public class Plagiarism {
public static void main(String[] args) throws Exception {
//you are not using 'myPlag' anywhere, you can safely remove it
// Plagiarism myPlag = new Plagiarism();
if (args.length == 0) {
System.out.println("Error: No files input");
System.exit(0);
}
String foo = null;
for (int i = 0; i < 2; i++) {
BufferedReader reader = new BufferedReader(new FileReader(args[i]));
foo = simplify(reader);
// System.out.print(foo);
int blockSize = Integer.valueOf(args[2]);
List<String> list = new ArrayList<String>();
for (int k = 0; k < foo.length() - blockSize + 1; k++) {
list.add(foo.substring(k, k + blockSize));
}
// System.out.print(list);
}
}
public static String simplify(BufferedReader input)
throws IOException {
StringBuilder sb = new StringBuilder();
String line = null;
while ((line = input.readLine()) != null) {
sb.append(line.replaceAll("[^a-zA-Z]", "").toLowerCase());
}
return sb.toString();
}
}
接下来我要做的是使用Horner的多项式累加方法(设定值x = 33)将这些块中的每一个转换为哈希码。我完全被这个难以接受,并希望得到你们的一些帮助!
感谢阅读,并提前感谢任何建议!
答案 0 :(得分:3)
Horner的哈希生成方法就像
一样简单int hash=0;
for(int i=0;i<str.length();i++)
hash = x*hash + str.charAt(i);