应用错误收集

Spark有没有办法在不使用Hadoop的情况下读取AWS S3文件？

时间：2015-07-26 04:59:49

标签： hadoop amazon-s3 apache-spark

独立程序可以使用AWS客户端jar文件在没有Hadoop的情况下读取/写入AWS S3文件。 Spark程序可以在没有Hadoop的情况下读/写文件。然而，Spark需要读取/写入AWS S3文件的程序才能使用Hadoop。即便如此，Spark 1.4和Hadoop 2.6及其存在运行时错误。 2.7关于缺少Hadoop的S3类，即使设置了Hadoop目录也是如此。

通过使用AWS客户端jar文件，Spark程序是否可以在不使用Hadoop的情况下读取/写入S3文件？
如果没有，如何解决Spark在运行时缺少Hadoop的S3类问题？

1 个答案:

答案 0 :(得分：4)

Spark使用Hadoop类来读取S3，但它并不需要安装Hadoop（我们使用预构建的Hadoop 2.4版本）。只需确保使用s3n://前缀

Spark有没有办法在不使用Hadoop的情况下读取AWS S3文件？
有没有办法在读取avro到rdd时忽略零长度文件？
如何使用Spark以递归方式从目录中读取Hadoop文件？
除了挖掘日志输出的日志文件之外，有没有办法获得Spark跟踪URL？
有没有办法在没有完整虚拟机的情况下使用Amazon AWS为Web应用程序保留文件？
无法在本地使用PySpark从AWS S3路径读取Avro文件
如何知道Spark使用什么AWS凭证读取S3文件？
使用临时凭证从AWS外部通过Spark从s3中读取
有没有办法恢复AWS s3存储桶中的覆盖文件/文件夹
是否可以使用Python合并上传到AWS S3存储桶的多个CSV文件？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？