独立程序可以使用AWS客户端jar文件在没有Hadoop的情况下读取/写入AWS S3文件。 Spark程序可以在没有Hadoop的情况下读/写文件。然而,Spark需要读取/写入AWS S3文件的程序才能使用Hadoop。即便如此,Spark 1.4和Hadoop 2.6及其存在运行时错误。 2.7关于缺少Hadoop的S3类,即使设置了Hadoop目录也是如此。
通过使用AWS客户端jar文件,Spark程序是否可以在不使用Hadoop的情况下读取/写入S3文件?
如果没有,如何解决Spark在运行时缺少Hadoop的S3类问题?
答案 0 :(得分:4)
Spark使用Hadoop类来读取S3,但它并不需要安装Hadoop(我们使用预构建的Hadoop 2.4版本)。只需确保使用s3n://
前缀