我在Databrick&Cloud中运行Spark 1.4。我将一个文件加载到我的S3实例中并安装它。安装工作。但是我在创建RDD时遇到了麻烦:
dbutils.fs.mount("s3n://%s:%s@%s" % (ACCESS_KEY, SECRET_KEY, AWS_BUCKET_NAME), "/mnt/%s" % MOUNT_NAME)
有什么想法吗?
sc.parallelize([1,2,3])
rdd = sc.textFiles("/mnt/GDELT_2014_EVENTS/GDELT_2014.csv")
答案 0 :(得分:2)
您已经将数据安装到dbfs中做得很好,这很棒,看起来您只是有一个小错字。我怀疑你想使用sc.textFile
而不是sc.textFiles
。祝你在Spark的冒险中好运。