请考虑以下代码:
import os
import numpy as np
import tables as tb
# Pass the field-names and their respective datatypes as
# a description to the table
dt = np.dtype([('doc_id', 'u4'), ('word', 'u4'),
('tfidf', 'f4')], align=True)
# Open a h5 file and create a table
f = tb.openFile('corpus.h5', 'w')
t = f.createTable(f.root, 'table', dt, 'train set',
filters=tb.Filters(5, 'blosc'))
r = t.row
for i in xrange(20):
r['doc_id'] = i
r['word'] = np.random.randint(1000000)
r['tfidf'] = rand()
r.append()
t.flush()
# structured array from table
sa = t[:]
f.close()
os.remove('corpus.h5')
我已经传入了对齐的dtype
对象,但是当我观察sa
时,我得到以下内容:
print dt
print "aligned?", dt.isalignedstruct
print
print sa.dtype
print "aligned?", sa.dtype.isalignedstruct
>>>
{'names':['doc_id','word','tfidf'], 'formats':['<u4','<u4','<f4'], 'offsets':[0,4,8], 'itemsize':12, 'aligned':True}
aligned? True
[('doc_id', '<u4'), ('word', '<u4'), ('tfidf', '<f4')]
aligned? False
结构化数组未对齐。是否目前没有办法在PyTables中强制对齐,或者我做错了什么?
编辑:我注意到我的问题类似于this one,但我已复制并尝试了其提供的答案,但它也不起作用。
Edit2 :(见Joel Vroom的回答)
我已经复制了Joel的答案并进行了测试,看看它是否真的是通过Cython解压缩的。原来是:
In [1]: %load_ext cythonmagic
In [2]: %%cython -f -c=-O3
...: import numpy as np
...: cimport numpy as np
...: import tables as tb
...: f = tb.openFile("corpus.h5", "r")
...: t = f.root.table
...: cdef struct Word: # notice how this is not packed
...: np.uint32_t doc_id, word
...: np.float32_t tfidf
...: def main(): # <-- np arrays in Cython have to be locally declared, so put array in a function
...: cdef np.ndarray[Word] sa = t[:3]
...: print sa
...: print "aligned?", sa.dtype.isalignedstruct
...: main()
...: f.close()
...:
[(0L, 232880L, 0.2658001184463501) (1L, 605285L, 0.9921777248382568) (2L, 86609L, 0.5266860723495483)]
aligned? False
答案 0 :(得分:1)
目前无法在PyTables中对齐数据:(
在实践中,我做了两件事之一来解决这个问题:
np.require(sa, dtype=dt, requirements='ACO')
或 作为第二个选项的示例,假设我有以下dtype:
dt = np.dtype([('f1', np.bool),('f2', '<i4'),('f3', '<f8')], align=True)
如果您打印dt.descr
,您会看到添加了一个空格以对齐数据:
dt.descr >>> [('f1', '|b1'), ('', '|V3'), ('f2', '<i4'), ('f3', '<f8')]
但是,如果我这样命令我的dtype(从最大到最小的字节):
dt = np.dtype([('f3', '<f8'), ('f2', '<i4'), ('f1', np.bool)])
无论我是否指定align = True/False
。
如果我错了,请有人纠正我,但即使dt.isalignedstruct = False
如果按照上面的说明进行了订购,它也是技术上对齐的。在我需要将对齐数据发送到C的应用程序中,这对我有用。
在您提供的示例中,即使sa.dtype.isalignedstruct = False
给出了这一点
dt.descr = [('doc_id', '<u4'), ('word', '<u4'), ('tfidf', '<f4')]
和
sa.dtype.descr = [('doc_id', '<u4'), ('word', '<u4'), ('tfidf', '<f4')]
sa
数组已对齐(没有空格空格添加到descr中)。