Question

我刚刚开始学习spark（pyspark更精确）。

如何将HDF5文件转换为spark数据帧？

dask可以帮助解决那些数据帧或数据帧与火花数据帧的不同之处吗？

Answer 1

读取熊猫数据框。然后，您可以将pandas数据框转换为spark数据框。这就是我做的。该代码将帮助您：

import pandas as pd

store = pd.HDFStore('/mypath')
wav = store.select('mykey')
spark_df = sqlContext.createDataFrame(wav, mySchema) //mySchema is optional
spark_df.take(1)

希望有帮助！

将HDF5（.h5）转换为spark数据帧

1 个答案: