获取pandas数据帧的字符串列的最大大小的最有效方法是什么,存储为hdf5文件

时间:2015-10-10 14:01:11

标签: python-2.7 pandas hdf5

我有一个非常大的pandas数据帧存储为hdf5文件。要获取此数据帧(df)的字符串列的最大大小,我以块的形式读取此数据帧,并使用以下代码获取结果

df[col].str.len().max()

是否有更有效的方法可以读取hdf5的元数据以直接获取其min_itemsize?

1 个答案:

答案 0 :(得分:1)

In [26]: df = DataFrame({'A' : ['foo','b']})

In [27]: store = pd.HDFStore('test.h5',mode='w')

In [28]: store.append('df',df,data_columns=True)

这将检索单个列的dtype。

In [29]: store.get_storer('df').table.cols.A.dtype.itemsize
Out[29]: 3