Spark有没有办法在不使用Hadoop的情况下读取AWS S3文件?

时间:2015-07-26 04:59:49

标签: hadoop amazon-s3 apache-spark

独立程序可以使用AWS客户端jar文件在没有Hadoop的情况下读取/写入AWS S3文件。 Spark程序可以在没有Hadoop的情况下读/写文件。然而,Spark需要读取/写入AWS S3文件的程序才能使用Hadoop。即便如此,Spark 1.4和Hadoop 2.6及其存在运行时错误。 2.7关于缺少Hadoop的S3类,即使设置了Hadoop目录也是如此。

  1. 通过使用AWS客户端jar文件,Spark程序是否可以在不使用Hadoop的情况下读取/写入S3文件?

  2. 如果没有,如何解决Spark在运行时缺少Hadoop的S3类问题?

1 个答案:

答案 0 :(得分:4)

Spark使用Hadoop类来读取S3,但它并不需要安装Hadoop(我们使用预构建的Hadoop 2.4版本)。只需确保使用s3n://前缀