Question

我正在使用numpy数组形式的图像。我需要将它们序列化/反序列化为JSON（我使用MongoDB）

numpy数组不能用json.dump序列化;我知道this但是我想知道是否有更好的方法，因为将字节numpy数组转换为BSON会使字节数增加近12（我不明白为什么）：

import numpy as np
import bson
from io import StringIO as sio
RC = 500
npdata = np.zeros(shape=(RC,RC,3), dtype='B')
rows, cols, depth = npdata.shape
npsize = rows*cols*depth
npdata=npdata.reshape((npsize,))
listdata = npdata.tolist()
bsondata = bson.BSON.encode({"rows": rows, "cols": cols, "data": listdata})
lb = len(bsondata)
print(lb, npsize, lb/npsize) 

> 8888926 750000 11.851901333333334

Answer 1

这种字节数增加的原因是BSON如何保存数据。您可以在BSON specification中找到此信息，但让我们看一个具体的例子：

import numpy as np
import bson

npdata = np.arange(5, dtype='B') * 11
listdata = npdata.tolist()
bsondata = bson.BSON.encode({"rows": rows, "cols": cols, "data": listdata})

print([hex(b) for b in bsondata])

这里，我们存储一个值为[0, 11, 22, 33, 44, 55]的数组作为BSON，并打印生成的二进制数据。下面我注释了结果，以解释发生了什么：

['0x47', '0x0', '0x0', '0x0',  # total number of bytes in the document
 # First element in document
     '0x4',  # Array
     '0x64', '0x61', '0x74', '0x61', '0x0',  # key: "data"
     # subdocument (data array)
         '0x4b',  '0x0', '0x0', '0x0',  # total number of bytes
         # first element in data array
             '0x10',                        # 32 bit integer
             '0x30', '0x0',                 # key: "0"
             '0x0', '0x0', '0x0', '0x0',    # value: 0
         # second element in data array
             '0x10',                        # 32 bit integer
             '0x31', '0x0',                 # key: "1"
             '0xb', '0x0', '0x0', '0x0',    # value: 11
         # third element in data array
             '0x10',                        # 32 bit integer
             '0x32', '0x0',                 # key: "2"
             '0x16', '0x0', '0x0', '0x0',   # value: 22             
 # ...
]

除了一些格式开销之外，数组的每个值都被浪费地编码为7个字节：1个字节用于指定数据类型，2个字节用于包含索引的字符串（3个字节用于索引＆gt; = 10,4个索引的字节＆gt; = 100，...）和32位整数值的4个字节。

这至少解释了为什么BSON数据比原始数据大得多。

我找到了两个库GitHub - mongodb/bson-numpy和GitHub - ajdavis/bson-numpy，它们可以更好地编码BSON中的numby数组。但是，我没有尝试过，所以我不能说是否是这种情况，或者它们是否正常工作。

为什么BSON序列化的numpy阵列比原来大得多？

1 个答案: