spark.read.parquet在Colab中不起作用

时间:2018-07-18 05:00:26

标签: amazon-s3 pyspark google-colaboratory

Py4JJavaError:调用o188.parquet时发生错误。 :java.lang.RuntimeException:java.lang.ClassNotFoundException:找不到org.apache.hadoop.fs.s3a.S3AFileSystem类

我尝试使用spark-submit将丢失的hadoop-aws jar文件添加到类路径,但是无法添加它。这是我尝试过的:

!spark-submit --jars /content/hadoop-aws-2.7.1.jar

线程“ main”中的异常java.lang.IllegalArgumentException:缺少应用程序资源。

1 个答案:

答案 0 :(得分:0)

os.environ ['PYSPARK_SUBMIT_ARGS'] =“ --packages = org.apache.hadoop:hadoop-aws:2.7.3 pyspark-shell”