从S3加载数据集需要哪些罐子?

时间:2018-06-07 14:11:46

标签: apache-spark amazon-s3 pyspark mesosphere dcos

我们正在尝试将数据从Amazon S3加载到Spark 2.3群集中,该群集在Mesosphere DC / OS下配置。 当我们在spark shell上运行代码时,spark无法识别S3文件系统:

File "/root/spark/spark-2.3.0-bin-hadoop2.7/python/lib/py4j-0.10.6-src.zip/py4j/protocol.py", line 320, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: java.io.IOException: No FileSystem for scheme: s3

我们需要手动添加到Spark中以使其识别S3?/ / p>需要哪些库/ jar?

1 个答案:

答案 0 :(得分:2)

您可以使用's3a://'而不是s3来阅读它。