为Apache Hadoop 2.7及更高版本预先构建的#34;"意思?

时间:2017-09-14 03:53:15

标签: apache-spark

为Apache Hadoop 2.7及更高版本预先构建的#34;"在Apache Spark的下载页面上意味着什么?

它是否意味着火花中HDFS的必要库?如果是这样,那么像Cassandra,s3,HBase,SQL数据库,NoSQL数据库等其他存储系统呢?我们是否需要下载任何库以连接到其他存储系统。

1 个答案:

答案 0 :(得分:2)

  

它是否意味着必须在spark中使用HDFS库

正确! Spark使用Hadoop FileSystem API来访问文件(在HDFS和S3以及其他支持HDFS的文件系统上),并且“为Apache Hadoop 2.7及更高版本预构建”版本附带了必要的库。

这主要是针对Spark Core的RDD来访问带有数据的文件。

  

如Cassandra,s3,HBase,SQL数据库,NoSQL数据库等其他存储系统如何?   我们是否需要下载任何库以连接到其他存储系统。

在上述存储系统中,S3部分由“为Apache Hadoop 2.7及更高版本预构建”捆绑包(但您必须为S3添加额外的jar)。

这主要是针对Spark SQL的数据集API。

Cassandra,HBase等有自己的Spark连接器,不包括在内。请参阅DataStax Spark Cassandra ConnectorApache HBase Connector