为Apache Hadoop 2.7及更高版本预先构建的#34;"在Apache Spark的下载页面上意味着什么?
它是否意味着火花中HDFS的必要库?如果是这样,那么像Cassandra,s3,HBase,SQL数据库,NoSQL数据库等其他存储系统呢?我们是否需要下载任何库以连接到其他存储系统。
答案 0 :(得分:2)
它是否意味着必须在spark中使用HDFS库
正确! Spark使用Hadoop FileSystem API来访问文件(在HDFS和S3以及其他支持HDFS的文件系统上),并且“为Apache Hadoop 2.7及更高版本预构建”版本附带了必要的库。
这主要是针对Spark Core的RDD来访问带有数据的文件。
如Cassandra,s3,HBase,SQL数据库,NoSQL数据库等其他存储系统如何? 我们是否需要下载任何库以连接到其他存储系统。
在上述存储系统中,S3部分由“为Apache Hadoop 2.7及更高版本预构建”捆绑包(但您必须为S3添加额外的jar)。
这主要是针对Spark SQL的数据集API。
Cassandra,HBase等有自己的Spark连接器,不包括在内。请参阅DataStax Spark Cassandra Connector和Apache HBase Connector