我正在尝试使用HDF,它看起来非常棒,因为我的数据没有标准化,而且包含大量文本。我喜欢在将数据读入熊猫时能够查询。
loc2 = r'C:\\Users\Documents\\'
(my dataframe with data is called 'export')
hdf = HDFStore(loc2+'consolidated.h5')
hdf.put('raw', export, format= 'table', complib= 'blosc', complevel=9, data_columns = True, append = True)
到目前为止,有21列和大约1200万行,我将每月增加大约100万行。
我制作了一个漂亮的小型h5表,它是完美的,直到我尝试向它添加更多数据(实际上只有一天的数据,因为我收到了每天的原始.csv文件)。虽然我使用了相同的ipython笔记本,但我收到的错误显示每个列的dtypes不匹配。