远程连接apache spark和apache hive。

时间:2015-10-15 08:34:05

标签: apache-spark jdbc hive apache-spark-sql

我可以从安装了apache spark的同一群集中的hive服务器加载数据。但是如何从远程配置单元服务器将数据加载到数据帧中。 hive jdbc连接器是唯一可以选择的吗?

任何建议我该怎么做?

1 个答案:

答案 0 :(得分:6)

您可以使用org.apache.spark.sql.hive.HiveContext对Hive表执行SQL查询。

您也可以将spark连接到真正存储数据的基础HDFS目录。这将更高效,因为SQL查询不需要解析或应用于文件的模式。

如果群集是外部群集,you'll need to set hive.metastore.uris