将HDF5(.h5)转换为spark数据帧

时间:2016-09-29 15:30:17

标签: python pyspark spark-dataframe hdf5

我刚刚开始学习spark(pyspark更精确)。

如何将HDF5文件转换为spark数据帧?

dask可以帮助解决那些数据帧或数据帧与火花数据帧的不同之处吗?

1 个答案:

答案 0 :(得分:1)

读取熊猫数据框。然后,您可以将pandas数据框转换为spark数据框。这就是我做的。该代码将帮助您:

import pandas as pd

store = pd.HDFStore('/mypath')
wav = store.select('mykey')
spark_df = sqlContext.createDataFrame(wav, mySchema) //mySchema is optional
spark_df.take(1)

希望有帮助!