我正在尝试将pyspark数据帧写入CSV。我有Spark 1.6,并且正在尝试以下行:df.write.format('com.intelli.spark.csv).save('mycsv.csv')
和df.write.format('com.databricks.spark.csv').save(PATH)
。
这些总是按照java.lang.ClassNotFoundException: Failed to find data source: com.intelli.spark.csv. Please find packages at http://spark-packages.org
的方式给出错误。
我尝试下载spark-cv_2.10-0.1.jar
,并在--jars
的{{1}}参数中使用它,但这也会导致类似的错误。我也尝试过spark-submit
,但它会导致服务器访问错误。
答案 0 :(得分:-1)
尝试这种方式。在spark 1.6中,您必须将其隐藏到rdd并编写。
def toCSVLine(data):
return ','.join(str(d) for d in data)
rdd1 = df.rdd.map(toCSVLine)
rdd1.saveAsTextFile('output_dir')
编辑-
在通过后尝试将其添加到您的Spark代码中
--py-files参数。
spark.sparkContext.addPyFile(“ / path / to / jar / xxxx.jar”)