Question

我一直在玩python和Java的MD5实现，并遇到了令我困惑的这个怪癖。

以下python脚本说明了问题：

# -*- coding: utf-8 -*-
import hashlib

def md5hash(x):
  m = hashlib.md5()
  m.update(x)
  return m.hexdigest()

print md5hash('\xdb')
print md5hash('Û')

输出：

98fd00d788afe2a5fa5e4f8e1666638b
31ecfb09f120720a55d96a2034f5d00b

我预计这两个摘要是等价的，因为Û应该等同于\xdb。我在Java中构建了一个等效的实现，以获得更多的洞察力：

import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;

public class Test {
  public static void main(String[] args) throws Exception {
    MessageDigest m = MessageDigest.getInstance("MD5");

    m.update("\u00db".getBytes());
    System.out.println(bytesToHex(m.digest()));

    m.update("Û".getBytes());
    System.out.println(bytesToHex(m.digest()));
  }

  final protected static char[] hexArray = "0123456789abcdef".toCharArray();
  public static String bytesToHex(byte[] bytes) {
    char[] hexChars = new char[bytes.length * 2];
    for ( int j = 0; j < bytes.length; j++ ) {
      int v = bytes[j] & 0xFF;
      hexChars[j * 2] = hexArray[v >>> 4];
      hexChars[j * 2 + 1] = hexArray[v & 0x0F];
    }
    return new String(hexChars);
  }
}

输出：

31ecfb09f120720a55d96a2034f5d00b
31ecfb09f120720a55d96a2034f5d00b

Java的输出与预期一致。这让我相信md5hash('\xdb')输出的结果不正确，但我不确定我错过了什么。有什么想法吗？

Answer 1

您的假设不正确。您使用以下命令启动了Python源代码：

# -*- coding: utf-8 -*-

在这种情况下，

Û 不等同于\xdb;它改为两个字节：

>>> u'Û'.encode('utf8')
'\xc3\x9b'

Python在这里完全一致：

>>> import hashlib
>>> hashlib.md5('\xc3\x9b').hexdigest()
'31ecfb09f120720a55d96a2034f5d00b'
>>> hashlib.md5('\xdb').hexdigest()
'98fd00d788afe2a5fa5e4f8e1666638b'

在Java中，您首先使用Unicode代码点，将其转换为UTF-8字节：

"\u00db".getBytes()

Python的等价物是使用unicode字符串文字以及\uhhhh或\xhh转义序列：

>>> u'\u00db'.encode('utf8')
'\xc3\x9b'
>>> u'\xdb'.encode('utf8')
'\xc3\x9b'

请注意u前缀以生成unicode字符串。没有\xdb前缀的u是字节字符串，而不是Unicode代码点，并且只有当您将其解码为 Latin 1 时才会获取相同的Unicode字符串：

>>> '\xdb'.decode('latin1')
u'\xdb'
>>> '\xdb'.decode('latin1').encode('utf8')
'\xc3\x9b'

您可能想要研究Python和Unicode;见：

Python Unicode HOWTO
Pragmatic Unicode

并且为了完整起见：

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)来自Joel Spolsky

Answer 2

我预计这两个摘要是等价的，因为Û应该等同于\xdb。

Û是UTF-8中的C3 9B，您似乎正在使用它（它是您声明的编码）。 DB将是ISO-8859-1。

>>> import hashlib
>>> hashlib.md5(b'\xc3\x9b').hexdigest()
'31ecfb09f120720a55d96a2034f5d00b'

钽哒！

python中的Hashlib md5为某些unicode字符返回错误的摘要？

2 个答案: