应用错误收集

时间：2017-09-14 03:53:15

标签： apache-spark

为Apache Hadoop 2.7及更高版本预先构建的＃34;＆＃34;在Apache Spark的下载页面上意味着什么？

它是否意味着火花中HDFS的必要库？如果是这样，那么像Cassandra，s3，HBase，SQL数据库，NoSQL数据库等其他存储系统呢？我们是否需要下载任何库以连接到其他存储系统。

答案 0 :(得分：2)

它是否意味着必须在spark中使用HDFS库

正确！ Spark使用Hadoop FileSystem API来访问文件（在HDFS和S3以及其他支持HDFS的文件系统上），并且“为Apache Hadoop 2.7及更高版本预构建”版本附带了必要的库。

这主要是针对Spark Core的RDD来访问带有数据的文件。

如Cassandra，s3，HBase，SQL数据库，NoSQL数据库等其他存储系统如何？我们是否需要下载任何库以连接到其他存储系统。

在上述存储系统中，S3部分由“为Apache Hadoop 2.7及更高版本预构建”捆绑包（但您必须为S3添加额外的jar）。

这主要是针对Spark SQL的数据集API。

Cassandra，HBase等有自己的Spark连接器，不包括在内。请参阅DataStax Spark Cassandra Connector和Apache HBase Connector