Question

我正在尝试将pyspark数据帧写入CSV。我有Spark 1.6，并且正在尝试以下行：df.write.format('com.intelli.spark.csv).save('mycsv.csv')和df.write.format('com.databricks.spark.csv').save(PATH)。

这些总是按照java.lang.ClassNotFoundException: Failed to find data source: com.intelli.spark.csv. Please find packages at http://spark-packages.org的方式给出错误。

我尝试下载spark-cv_2.10-0.1.jar，并在--jars的{{1}}参数中使用它，但这也会导致类似的错误。我也尝试过spark-submit，但它会导致服务器访问错误。

Answer 1

尝试这种方式。在spark 1.6中，您必须将其隐藏到rdd并编写。

def toCSVLine(data):
    return ','.join(str(d) for d in data)

rdd1 = df.rdd.map(toCSVLine)
rdd1.saveAsTextFile('output_dir')

编辑-

在通过后尝试将其添加到您的Spark代码中
--py-files参数。 spark.sparkContext.addPyFile（“ / path / to / jar / xxxx.jar”）

将数据帧写入CSV-Spark 1.6

1 个答案: