将数据帧写入CSV-Spark 1.6

时间:2020-03-18 13:05:08

标签: csv apache-spark pyspark

我正在尝试将pyspark数据帧写入CSV。我有Spark 1.6,并且正在尝试以下行:df.write.format('com.intelli.spark.csv).save('mycsv.csv')df.write.format('com.databricks.spark.csv').save(PATH)

这些总是按照java.lang.ClassNotFoundException: Failed to find data source: com.intelli.spark.csv. Please find packages at http://spark-packages.org的方式给出错误。

我尝试下载spark-cv_2.10-0.1.jar,并在--jars的{​​{1}}参数中使用它,但这也会导致类似的错误。我也尝试过spark-submit,但它会导致服务器访问错误。

1 个答案:

答案 0 :(得分:-1)

尝试这种方式。在spark 1.6中,您必须将其隐藏到rdd并编写。

def toCSVLine(data):
    return ','.join(str(d) for d in data)

rdd1 = df.rdd.map(toCSVLine)
rdd1.saveAsTextFile('output_dir')

编辑-

在通过后尝试将其添加到您的Spark代码中
--py-files参数。 spark.sparkContext.addPyFile(“ / path / to / jar / xxxx.jar”)