Question

我已经通过pandas pandas.HDFStore()将大约800 GB的巨大数据帧存储到HDF5中。

import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df

我想用Impala查询。有没有一种直接的方法将这些数据解析成Parquet？或者Impala允许您直接使用HDF5吗？ HDF5的数据还有其他选择吗？

Answer 1

我自己没有试过这个，但这里有一个链接，展示了如何使用Spark将{HDFStore转换为Parquet：https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f。