如何将Postgres bytea数据或Python memoryview对象转换为NumPy数组?

时间:2018-11-05 19:23:51

标签: python postgresql numpy opencv matplotlib

我有一个PostgreSQL数据库(v 9.6),其中图像存储为bytea数据。我不知道图像编码。 (我没有设置这个数据库,虽然我愿意,但是我不确定是否可以更改此设置,因为在PostgreSQL数据库中存储大图像不是(IIUC)的最佳做法。)

我想将此数据提取到图像中,或者更好的是直接提取到NumPy数组中。

使用SQLAlchemy,我可以连接并提取数据:

engine = create_engine(postgresql+psycopg2://user:password@server:port/database)
connection = engine.connect()
result = connection.execute('SELECT image FROM database.table LIMIT 1;')

有问题的图像作为memoryview对象返回;强制转换为numpy数组,它看起来像这样(每Cython: Convert memory view to NumPy array):

[b'\xaa' b'\x04' b'u' b'\x04' b'\x85' b'\x04' b'E' b'\x04' b'\x7f' b'\x04'
 b'\xa5' b'\x04' b'K' b'\x04' b'j' b'\x04' b'\x97' b'\x04' b';' b'\x04'
 b'w' b'\x04' b'k' b'\x04' b'E' b'\x04' b'b' b'\x04' b's' b'\x04']

我尝试保存为jpg或tiff文件(每个Converting BLOB, stored on a database, to an image on an HTML website),但无法使用图像查看器打开生成的文件。

我也尝试了这个(Open PIL image from byte file),但得到了以下结果:

OSError: cannot identify image file <_io.BytesIO object at 0x000002299F4DD830>

或者,从How to convert hex string to color image in python?,我收到此错误:

ValueError: non-hexadecimal number found in fromhex() arg at position 0

因此:如何将这个bytea数据或这个memoryview对象转换成NumPy数组?

我可能缺少一些简单的东西,或者这可能只是不应将图像存储在SQL数据库中的原因之一。

1 个答案:

答案 0 :(得分:0)

为了后代,这是我得出的最简单的解决方法。

最佳实践是不将图像存储在数据库中,而是在文件系统中存储多个版本(不同的分辨率,从缩略图(64x64 ish)到完整分辨率(在这种情况下为2504x2504)),并带有这些图像的文件路径。图像可以按哈希(某种程度的开销)或时间戳进行排序;后者对我们有用,因为所有数据都来自一台摄像机,因此具有不同的时间戳。

有问题的数据是16位灰度的TIFF文件。 Python图像库(PIL)无法转换这些图像。 OpenCV可以的。但是,由于无论如何我都想要一个NumPy数组,所以这并不重要。 MatPlotLib可以直接显示数组。 Numpy可以根据需要切片或下采样。<​​/ p>

engine = create_engine('postgresql+psycopg2://user:pass@server:port/database')
connection = engine.connect()

query = 'SELECT * FROM database.schema.table WHERE "ID" = 1234'
result = connection.execute(query)

for row in result:
    data = row[-1] # our image is the last column in the table

connection.close()

在这里,numpymatplotlib可以起吊。我知道图像的分辨率,但是它也存储在数据库表的其他位置。

img_array = np.reshape(np.frombuffer(data, dtype="Int16"), (2504, 2504))

norm = cm.colors.Normalize(vmax=abs(img_array).max(), vmin=-abs(img_array).max())
plt.matshow(img_array, norm=norm, cmap="gray")
plt.show()

plt.imshow()也可以。

在OpenCV中,我们使用的代码是这样的:

cv2.namedWindow("Image", cv2.WINDOW_NORMAL | cv2.WINDOW_KEEPRATIO)
cv2.imshow("Image", img_array)
cv2.waitKey(0)
cv2.destroyAllWindows()