标签: python apache-spark pyspark databricks
我必须处理并转换为镶木地板的1500个.H5文件。到目前为止,我已经创建了一个函数:
spark.createDataFrame(df)
但是到目前为止,我只能按顺序应用此功能。当我尝试使用sc.parallelize()时,会出现错误(就我所能收集到的而言,问题出在内部的spark.createDataFrame(df)转换之内)。
sc.parallelize()
什么是最好的方法?我正在使用databricks btw。