我想加载可能不同文件的MD5。我遵循这个answer来做到这一点,但主要问题是加载文件的MD5所花费的时间(可能是几百个)是很多。
有没有什么方法可以用来查找文件的MD5而不会消耗太多时间。
注意 - 文件大小可能很大(最多可达300MB)。
这是我正在使用的代码 -
import java.io.*;
import java.security.MessageDigest;
public class MD5Checksum {
public static byte[] createChecksum(String filename) throws Exception {
InputStream fis = new FileInputStream(filename);
byte[] buffer = new byte[1024];
MessageDigest complete = MessageDigest.getInstance("MD5");
int numRead;
do {
numRead = fis.read(buffer);
if (numRead > 0) {
complete.update(buffer, 0, numRead);
}
} while (numRead != -1);
fis.close();
return complete.digest();
}
// see this How-to for a faster way to convert
// a byte array to a HEX string
public static String getMD5Checksum(String filename) throws Exception {
byte[] b = createChecksum(filename);
String result = "";
for (int i=0; i < b.length; i++) {
result += Integer.toString( ( b[i] & 0xff ) + 0x100, 16).substring( 1 );
}
return result;
}
public static void main(String args[]) {
try {
System.out.println(getMD5Checksum("apache-tomcat-5.5.17.exe"));
// output :
// 0bb2827c5eacf570b6064e24e0e6653b
// ref :
// http://www.apache.org/dist/
// tomcat/tomcat-5/v5.5.17/bin
// /apache-tomcat-5.5.17.exe.MD5
// 0bb2827c5eacf570b6064e24e0e6653b *apache-tomcat-5.5.17.exe
}
catch (Exception e) {
e.printStackTrace();
}
}
}
答案 0 :(得分:2)
您不能使用哈希来确定内容的任何相似性。
例如,生成hellostackoverflow1和hellostackoverflow2的MD5会计算两个哈希值,其中字符串表示的所有字符都不匹配(7c35 [...] 85fa vs b283 [...] 3d19)。这是因为基于文件的二进制数据计算散列,因此同一事物的两种不同格式 - 例如.txt和相同文本的.docx - 有不同的哈希值。
但是正如已经指出的那样,使用本机代码可以实现一些速度,即NDK。此外,如果您仍想比较完全匹配的文件,请首先比较大小(以字节为单位),然后使用具有足够速度和低冲突风险的散列算法。如上所述,CRC32很好。
答案 1 :(得分:0)
哈希/ CRC计算需要一些时间,因为必须完全读取文件。
您提供的createChecksum
代码几乎是最优的。唯一可以调整的部分是读缓冲区大小(我会使用2048字节或更大的缓冲区)。但是,这可能会使您的速度提高1-2%。
如果这仍然太慢,剩下的唯一选择是在C / C ++中实现散列并将其用作本机方法。除此之外,你无能为力。