我正在尝试在我的本地文件上获得CRC32c
校验和,因此我可以将其与gcloud库提供的blob.crc32c进行比较。谷歌说我应该使用crcmod模块来实际计算我的数据的CRC32c
哈希值。
modifiedFile.txt
已从Google云端存储桶下载到我的本地文件系统。
此处的目标是仅当should_download
在我的本地客户端与远程服务器上具有不同的modifiedFile.txt
时才将CRC32c
设置为true。如果我的本地文件系统和我的gcloud Blob都具有相同的内容,如何让它们生成匹配的CRC32c
?
from crcmod import PredefinedCrc
from gcloud import storage
# blob is a gcloud Blob object
should_download = True
with open('modifiedFile.txt') as f:
hasher = PredefinedCrc('crc-32c')
hasher.update(f.read())
crc32c = hasher.digest()
print crc32c # \207\245.\240
print blob.crc32c # CJKo0A==
should_download = crc32c != blob.crc32c
不幸的是,它目前总是失败,因为我实际上并不知道如何将我使用crcmod
构建的校验和与我在匹配的Blob
对象中看到的属性进行比较。
答案 0 :(得分:8)
以下是gsutil public tarball的md5和crc32c示例:
$ gsutil ls -L gs://pub/gsutil.tar.gz | grep Hash
Hash (crc32c): vHI6Bw==
Hash (md5): ph7W3cCoEgMQWvA45Z9y9Q==
我会在本地复制它以便:
$ gsutil cp gs://pub/gsutil.tar.gz /tmp/
Copying gs://pub/gsutil.tar.gz...
Downloading file:///tmp/gsutil.tar.gz: 2.59 MiB/2.59 MiB
CRC值通常显示为无符号32位整数。转换它:
>>> import base64
>>> import struct
>>> struct.unpack('>I', base64.b64decode('vHI6Bw=='))
(3161602567,)
从crcmod库中获取相同内容:
>>> file_bytes = open('/tmp/gsutil.tar.gz', 'rb').read()
>>> import crcmod
>>> crc32c = crcmod.predefined.Crc('crc-32c')
>>> crc32c.update(file_bytes)
>>> crc32c.crcValue
3161602567L
如果要将crcmod中的值转换为gcloud / gsutil使用的相同base64格式:
>>> base64.b64encode(crc32c.digest())
'vHI6Bw=='
答案 1 :(得分:1)
来自链接文档:" CRC32c校验和,如RFC 4960,附录B中所述;使用base64以big-endian字节顺序编码"
看起来你没有解码base64字符串。
如果您使用的是Windows计算机,则需要以二进制模式打开文本文件。