将h5转换为实木复合地板

时间:2018-10-10 14:15:10

标签: python apache-spark pyspark databricks

我必须处理并转换为镶木地板的1500个.H5文件。到目前为止,我已经创建了一个函数:

  • 将H5文件读取到熊猫数据框
  • 将其转换为带有spark.createDataFrame(df)的spark数据帧
  • 进行必要的处理
  • 将其保存到镶木地板中

但是到目前为止,我只能按顺序应用此功能。当我尝试使用sc.parallelize()时,会出现错误(就我所能收集到的而言,问题出在内部的spark.createDataFrame(df)转换之内)。

什么是最好的方法?我正在使用databricks btw。

0 个答案:

没有答案