我创建了一个两步过程,首先使用pytables将大量文本处理成HDF5文件。然后我使用HDFStore开放的pandas进行处理和分析。
由于内容主要是动态的,我使用字典创建此表格描述。
tcols = { "Time" : Time64Col(pos=0) }
# Then further columns are added dynamically
每一行都有一个日期时间戳,我希望将来证明,所以不要使用pyC类型TimeCol32或TimeCol64,它工作正常,但是当pandas转换为;时,必须经过转换;
hdf=pd.HDFStore('store.h5')
df=hdf.get('/mygroup/mytable')
df['Time'] = pd.to_datetime(df['Time'],unit='s',utc=True)
我知道我可以使用Int64Col创建Pytable条目并将我的时间转换为自纪元以来的纳秒但是如何让pandas自动知道这是一个没有经过转换的日期?
我注意到在搞乱HDFStore表格格式时写了表格属性是否指定了dtypes,这是否能告诉大熊猫正确的解释?
index_kind := 'datetime64',
values_block_0_dtype := 'float64',
values_block_0_kind := ['A', 'B', 'C'],
values_block_1_dtype := 'datetime64',
values_block_1_kind := ['dateto']]