String.getBytes(“UTF-8”)与平台无关?

时间:2013-11-20 22:58:27

标签: java string encoding utf-8 character-encoding

我试图哈希我的字符串并提出以下代码:

import java.io.UnsupportedEncodingException;
import java.nio.charset.Charset;
import java.security.NoSuchAlgorithmException;
import java.security.MessageDigest;
import sun.misc.BASE64Encoder;

public class JavaTest {
    public static void main (String[] args) throws UnsupportedEncodingException, NoSuchAlgorithmException {
        String rawString = "9498131529";
        System.out.println(Charset.defaultCharset());
        System.out.println(rawString);

        MessageDigest digest = MessageDigest.getInstance("MD5");
        digest.update(rawString.getBytes("UTF-8")); 
        BASE64Encoder encoder = new BASE64Encoder();
        byte hashedBytes[] = (new String(digest.digest(), "UTF-8")).getBytes();
        System.out.println(encoder.encode(hashedBytes));
    }
}

我的印象是这段代码应该与平台无关,因为当我尝试从String中获取字节时,我指定编码类型为“UTF-8”。

但是当我在Mac,Dev环境和暂存环境中运行代码时,我得到了以下结果: Mac

MacRoman
9498131529
XElaLD8UPzE/P1sWDz8/Pw==

开发:

US-ASCII
9498131529
XElaLD8UPzE/P1sWDz8/Pw==

分段

UTF-8
9498131529
XElaLO+/vRTvv70x77+977+9WxYP77+977+977+9

我的配置:

苹果

> sw_vers
ProductName:    Mac OS X
ProductVersion: 10.9
BuildVersion:   13A603

开发

> cat /proc/version
Linux version 2.6.21.7-2.fc8xen-ec2-v1.0  (gcc version 4.1.2 20070925 (Red Hat 4.1.2-33)) #2 SMP Tue Sep 1 10:04:29 EDT 2009

分段

> cat /proc/version
Linux version 3.2.0-31-virtual (gcc version 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) ) #50-Ubuntu SMP Fri Sep 7 16:36:36 UTC 2012

我在这里缺少什么?为什么哈希算法系统是独立的?我认为MD5应该根据规范独立于平台。我错了我的假设吗?

如果您需要更多详细信息,请与我们联系!

1 个答案:

答案 0 :(得分:2)

为什么通过String额外往返?即使你添加" UTF-8" getBytes()它仍然是错误的,因为它会将原始字节数组(摘要)视为UTF-8编码的字符串。

将hashedBytes行更改为:

    byte hashedBytes[] = digest.digest();