如何将HDF5文件转换为Parquet文件?

时间:2017-01-06 01:28:10

标签: hadoop hdf5 impala parquet hdfstore

我已经通过pandas pandas.HDFStore()将大约800 GB的巨大数据帧存储到HDF5中。

import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df

我想用Impala查询。有没有一种直接的方法将这些数据解析成Parquet?或者Impala允许您直接使用HDF5吗? HDF5的数据还有其他选择吗?

1 个答案:

答案 0 :(得分:0)

我自己没有试过这个,但这里有一个链接,展示了如何使用Spark将{HDFStore转换为Parquet:https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f