sparkR中的Hadoop配置

时间:2015-09-26 12:35:37

标签: r hadoop amazon-s3 apache-spark sparkr


我有一些问题,配置带有sparkR的hadoop,以便从亚马逊S3读取/写入数据 例如,这些是在pyspark中工作的命令(以解决相同的问题):

sc._jsc.hadoopConfiguration().set("fs.s3n.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", "myaccesskey")
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", "mysecretaccesskey")
sc._jsc.hadoopConfiguration().set("fs.s3n.endpoint", "myentrypoint")

有人可以帮我解决这个问题吗?

2 个答案:

答案 0 :(得分:2)

使用callJMethodhttps://github.com/apache/spark/blob/master/R/pkg/R/backend.R#L31

可以实现更接近您使用PySpark的解决方案
> hConf = SparkR:::callJMethod(sc, "hadoopConfiguration")
> SparkR:::callJMethod(hConf, "set", "a", "b")
NULL
> SparkR:::callJMethod(hConf, "get", "a")
[1] "b"

<强>更新

hadoopConfiguration对我不起作用:conf虽然有效 - 但可能会在某些时候发生变化。

答案 1 :(得分:1)

您可以设置

<property>
    <name>fs.s3n.impl</name>
    <value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value>
</property>
在您的core-site.xml(纱线配置)