我需要存储和处理大量非常长的数字,范围从0到64次(ffffffffff ..... ffff)。

如果我将这些数字存储在一个文件中,每个字符(数字)需要1个字节,\ n符号需要2个字节=最多66个字节。然而,要表示所有可能的数字,我们需要不超过34个字节(4位表示从0到f的数字,因此4 [位] * 64 [十六进制数量] / 8 [位a字节] = 32字节+ \ n ,当然)。


到目前为止,我已经创建了从十六进制转换器(每个符号16位)转换为基数为76(十六进制+所有字母和其他一些符号)的数字,这将一个数字的大小减少到41 + 2个字节。

3 个答案:

答案 0 :(得分:6)


如果您的号码是字符串,请先将其转换为int。 Python3 int基本上是无限精度,所以你不会丢失任何信息:

>>> num = '113AB87C877AAE3790'
>>> num = int(num, 16)
>>> num


with open('output.bin', 'wb') as file:
    file.write(num.to_bytes(32, byteorder='big'))

int方法to_bytes将您的号码转换为可放置在文件中的字符串。您需要指定字符串长度和顺序。 'big'可以更轻松地读取文件的十六进制转储。


with open('output.bin', 'rb') as file:
    bytes = file.read(32)
    num = int.from_bytes(bytes, byteorder='big')



答案 1 :(得分:4)

如果您预计存储均匀分布的数字,请参阅Mad Physicist的回答。但是,如果您预计存储的数量很少,但需要能够存储一些大数字,那么这些方案也可能有用。


# This was only tested with non-negative integers!
def encode(num):
    assert isinstance(num, int)
    # Convert the number to a byte array and strip away leading null bytes.
    # You can also use byteorder="little" and rstrip.
    # If the integer does not fit into 255 bytes, an OverflowError will be raised.
    encoded = num.to_bytes(255, byteorder="big").lstrip(b'\0')
    # Return the length of the integer in the first byte, followed by the encoded integer.
    return bytes([len(encoded)]) + encoded
def encode_many(nums):
    return b''.join(encode(num) for num in nums)
def decode_many(byte_array):
    assert isinstance(byte_array, bytes)
    result = []
    start = 0
    while start < len(byte_array):
        # The first byte contains the length of the integer.
        int_length = byte_array[start]
        # Read int_length bytes and decode them as int.
        new_int = int.from_bytes(byte_array[(start+1):(start+int_length+1)], byteorder="big")
        # Add the new integer to the result list.
        start += int_length + 1
    return result


  • 一个字节有八位(对于那些不知道的人)。
  • 在除之外的每个字节中,最左边的位(最高位)将为1
  • 每个字节中的低7位(即除最左位之外的所有位)在连接在一起时形成一个具有可变位数的整数。


  • 000000000。它可以用一个字节表示而不需要修改为00000000
  • 二进制文件中的
  • 12701111111。它可以用一个字节表示而不需要修改为01111111
  • 二进制文件中的
  • 12810000000。必须将其转换为双字节表示形式:10000001 00000000。让我们打破这个:
    • 第一个字节中最左边的位是1,这意味着不是最后一个字节。
    • 第二个字节中最左边的位是0,这意味着它是最后一个字节。
    • 第一个字节中的低7位是0000001,第二个字节中的低7位是0000000。将它们连接在一起,得到00000010000000,即128。
  • 二进制文件中的
  • 173249806138790100111011001000111011101001001101111110110100110
    • 存储它:
      • 首先,将二进制数拆分为七位组:0100111 0110010 0011101 1101001 0011011 1111011 0100110(已添加前导0
      • 然后,在除了最后一个字节之外的每个字节前面添加1,这得到010100111 10110010 10011101 11101001 10011011 11111011 00100110
    • 要检索它:
      • 首先,删除每个字节的第一位:0100111 0110010 0011101 1101001 0011011 1111011 0100110
      • 您将获得一个包含七位段的数组。加入他们:100111011001000111011101001001101111110110100110
      • 当转换为十进制时,您将获得173,249,806,138,790。


以下是两个函数encodedecode,它们在Python 3中的intbytes之间进行转换。

# Important! These methods only work with non-negative integers!
def encode(num):
    assert isinstance(num, int)
    # If the number is 0, then just return a single null byte.
    if num <= 0:
        return b'\0'
    # Otherwise...
    result_bytes_reversed = []
    while num > 0:
        # Find the right-most seven bits in the integer.
        current_seven_bit_segment = num & 0b1111111
        # Change the left-most bit to a 1.
        current_seven_bit_segment |= 0b10000000
        # Add that to the result array.
        # Chop off the right-most seven bits.
        num = num >> 7
    # Change the left-most bit in the lowest-order byte (which is first in the list) back to a 0.
    result_bytes_reversed[0] &= 0b1111111
    # Un-reverse the order of the bytes and convert the list into a byte string.
    return bytes(reversed(result_bytes_reversed))
def decode(byte_array):
    assert isinstance(byte_array, bytes)
    result = 0
    for part in byte_array:
        # Shift the result over by seven bits.
        result = result << 7
        # Add in the right-most seven bits from this part.
        result |= (part & 0b1111111)
    return result

以下是使用int s列表的两个函数:

def encode_many(nums):
    return [encode(num) for num in nums]
def decode_many(byte_array):
    parts = []
    # Split the byte array after each byte where the left-most bit is 0.
    start = 0
    for i, b in enumerate(byte_array):
        # Check whether the left-most bit in this byte is 0.
        if not (b & 0b10000000):
            # Copy everything up to here into a new part.
            start = i + 1
    return [decode(part) for part in parts]

答案 2 :(得分:2)






def write_numbers(numbers, file):
    for n in numbers:
        file.write(n.to_bytes(32, 'big'))

with open('file_name', 'wb') as f:
    write_numbers(get_numbers(), f)