我可以从安装了apache spark的同一群集中的hive服务器加载数据。但是如何从远程配置单元服务器将数据加载到数据帧中。 hive jdbc连接器是唯一可以选择的吗?
任何建议我该怎么做?
答案 0 :(得分:6)
您可以使用org.apache.spark.sql.hive.HiveContext
对Hive表执行SQL查询。
您也可以将spark连接到真正存储数据的基础HDFS目录。这将更高效,因为SQL查询不需要解析或应用于文件的模式。
如果群集是外部群集,you'll need to set hive.metastore.uris