比较生成的和谷歌云存储的难度提供了CRC32c校验和

时间:2016-05-21 20:38:27

标签: python google-cloud-storage crc32 gcloud-python google-cloud-python

我正在尝试在我的本地文件上获得CRC32c校验和,因此我可以将其与gcloud库提供的blob.crc32c进行比较。谷歌说我应该使用crcmod模块来实际计算我的数据的CRC32c哈希值。

modifiedFile.txt已从Google云端存储桶下载到我的本地文件系统。

此处的目标是仅当should_download在我的本地客户端与远程服务器上具有不同的modifiedFile.txt时才将CRC32c设置为true。如果我的本地文件系统和我的gcloud Blob都具有相同的内容,如何让它们生成匹配的CRC32c

from crcmod import PredefinedCrc
from gcloud import storage

# blob is a gcloud Blob object

should_download = True

with open('modifiedFile.txt') as f:
  hasher = PredefinedCrc('crc-32c')
  hasher.update(f.read())
  crc32c = hasher.digest()
  print crc32c # \207\245.\240
  print blob.crc32c # CJKo0A==
  should_download = crc32c != blob.crc32c

不幸的是,它目前总是失败,因为我实际上并不知道如何将我使用crcmod构建的校验和与我在匹配的Blob对象中看到的属性进行比较。

2 个答案:

答案 0 :(得分:8)

以下是gsutil public tarball的md5和crc32c示例:

$ gsutil ls -L gs://pub/gsutil.tar.gz | grep Hash
    Hash (crc32c):      vHI6Bw==
    Hash (md5):     ph7W3cCoEgMQWvA45Z9y9Q==

我会在本地复制它以便:

$ gsutil cp gs://pub/gsutil.tar.gz /tmp/
Copying gs://pub/gsutil.tar.gz...
Downloading file:///tmp/gsutil.tar.gz:                           2.59 MiB/2.59 MiB    

CRC值通常显示为无符号32位整数。转换它:

>>> import base64
>>> import struct
>>> struct.unpack('>I', base64.b64decode('vHI6Bw=='))
(3161602567,)

从crcmod库中获取相同内容:

>>> file_bytes = open('/tmp/gsutil.tar.gz', 'rb').read()
>>> import crcmod
>>> crc32c = crcmod.predefined.Crc('crc-32c')
>>> crc32c.update(file_bytes)
>>> crc32c.crcValue
3161602567L

如果要将crcmod中的值转换为gcloud / gsutil使用的相同base64格式:

>>> base64.b64encode(crc32c.digest())
'vHI6Bw=='

答案 1 :(得分:1)

来自链接文档:" CRC32c校验和,如RFC 4960,附录B中所述;使用base64以big-endian字节顺序编码"

看起来你没有解码base64字符串。

如果您使用的是Windows计算机,则需要以二进制模式打开文本文件。

相关问题