Question

我在Databrick＆Cloud中运行Spark 1.4。我将一个文件加载到我的S3实例中并安装它。安装工作。但是我在创建RDD时遇到了麻烦： enter image description here

dbutils.fs.mount("s3n://%s:%s@%s" % (ACCESS_KEY, SECRET_KEY, AWS_BUCKET_NAME), "/mnt/%s" % MOUNT_NAME)

有什么想法吗？

sc.parallelize([1,2,3])
rdd = sc.textFiles("/mnt/GDELT_2014_EVENTS/GDELT_2014.csv")

Answer 1

您已经将数据安装到dbfs中做得很好，这很棒，看起来您只是有一个小错字。我怀疑你想使用sc.textFile而不是sc.textFiles。祝你在Spark的冒险中好运。