我有一个非常大的pandas数据帧存储为hdf5文件。要获取此数据帧(df)的字符串列的最大大小,我以块的形式读取此数据帧,并使用以下代码获取结果
df[col].str.len().max()
是否有更有效的方法可以读取hdf5的元数据以直接获取其min_itemsize?
答案 0 :(得分:1)
In [26]: df = DataFrame({'A' : ['foo','b']})
In [27]: store = pd.HDFStore('test.h5',mode='w')
In [28]: store.append('df',df,data_columns=True)
这将检索单个列的dtype。
In [29]: store.get_storer('df').table.cols.A.dtype.itemsize
Out[29]: 3