我尝试使用pyspark导入csv文件。我尝试了this和this。
使用第一种方法我可以读取csv文件。但是变量的数量非常大。因此,手动提及变量名称很困难。
使用第二种方法(spark-csv),我可以使用命令提示符读取csv文件。但是当我尝试在Jupyter笔记本中使用相同的方法时,我收到了错误:
Py4JJavaError: An error occurred while calling o89.load.
: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org
我也累了this个选项。我修好了#34; conf"文件。但不知道如何设置" PACKAGES"和" PYSPARK_SUBMIT_ARGS"在Windows环境中。
有谁可以帮我解决如何在spark数据帧中读取csv文件的问题?
谢谢!