将csv文件导入spark数据帧

时间:2016-05-17 20:49:09

标签: apache-spark pyspark pyspark-sql

我尝试使用pyspark导入csv文件。我尝试了thisthis

使用第一种方法我可以读取csv文件。但是变量的数量非常大。因此,手动提及变量名称很困难。

使用第二种方法(spark-csv),我可以使用命令提示符读取csv文件。但是当我尝试在Jupyter笔记本中使用相同的方法时,我收到了错误:

Py4JJavaError: An error occurred while calling o89.load.
: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org

我也累了this个选项。我修好了#34; conf"文件。但不知道如何设置" PACKAGES"和" PYSPARK_SUBMIT_ARGS"在Windows环境中。

有谁可以帮我解决如何在spark数据帧中读取csv文件的问题?

谢谢!

0 个答案:

没有答案