如何在Windows中的ipython jupyter笔记本中添加Spark-csv-master?

时间:2016-06-15 12:21:33

标签: apache-spark ipython pyspark jupyter-notebook

我正在使用apache-sparkipython并尝试在笔记本中加载csv文件。但我收到错误:  Py4JJavaError: An error occurred while calling o22.load.
 在搜索时我发现通过加载spark-csv,这将得到解决。我想知道如何在Windows中的笔记本中加载spark-csv,以及是否有人可以告诉我另一种方法来解决此错误。我上传了错误的屏幕截图。

py4jjavaerror errorpic 2

1 个答案:

答案 0 :(得分:0)

我有同样的问题。这是我修复的方式。我使用了anaconda 3.5 jupyter笔记本和Windows 10:

import os
import sys

SUBMIT_ARGS = "--packages com.databricks:spark-csv_2.11:1.4.0 pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS

spark_home = os.environ.get('SPARK_HOME', None)
if not spark_home:
    raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'C:/spark/python/lib/py4j-0.9-src.zip'))

exec(open(os.path.join(spark_home, 'C:/spark/python/pyspark/shell.py')).read()) # python 3


from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('C:/spark_data/train.csv')

df.show()