目前首次设置Spark / Hadoop测试堆并遇到了一个我希望社区可以提供帮助的问题。
目标是通过spark提交运行一个简单的jar文件,该文件将读取和写入S3存储桶。
安装了Spark,现在我正在使用Hadoop来处理hdfs / s3功能。
我按照指南设置了Windows,一切顺利,直到我运行启动命令导致:
java.lang.IllegalArgumentException: Invalid URI for NameNode address <check fs.defaultFS>: file:/// has no authority.
core-site.xml中的详细信息最初指向localhost:9000,我需要它(我相信)指向我尝试使用的s3存储桶。
从其他指南和答案我现在将其作为我的core-site.xml:
<configuration>
<property>
<name>fs.s3n.awsAccessKeyId</name>
<value>xxx</value>
</property>
<property>
<name>fs.s3n.awsSecretAccessKey</name>
<value>xxx</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>s3n://myBucketName</value>
</property>
我也是AWS / s3的新手,并且认为问题可能在于bucketname位置,但不确定端点应该是什么,或者即使这是原因的根源。
提前感谢您的帮助。
编辑:我尝试从命令行在存储桶上运行hdfs并收到无法找到site-core.xml的错误,目前我的xml文件中的所有文件都位于hadoop / etc / hadoop我将site-core从那里复制到hadoop / conf并且不再出现错误,它确实告诉我s3没有文件系统但是,这是正确的吗?这些文件应该驻留在conf还是etc / hadoop?