我已经通过pandas pandas.HDFStore()
将大约800 GB的巨大数据帧存储到HDF5中。
import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df
我想用Impala查询。有没有一种直接的方法将这些数据解析成Parquet?或者Impala允许您直接使用HDF5吗? HDF5的数据还有其他选择吗?
答案 0 :(得分:0)
我自己没有试过这个,但这里有一个链接,展示了如何使用Spark将{HDFStore转换为Parquet:https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f。