JDBC Spark连接

时间:2016-05-05 02:10:43

标签: python r jdbc hive apache-spark-sql

我正着手建立一个从R / python使用的JDBC Spark连接。我知道pysparkSparkR都可用 - 但这些似乎更适合交互式分析,特别是因为它们为用户保留了群集资源。我正在考虑更类似于Tableau ODBC Spark连接的东西 - 更轻量级(据我所知)支持简单的随机访问。虽然这似乎是可能的,并且有一些documentation但它并不清楚(对我而言)JDBC驱动程序的要求是什么。

我是否应该使用org.apache.hive.jdbc.HiveDriver来建立Hive连接,因为Hive和Spark SQL通过thrift似乎紧密相连?我是否应该将我的Hive连接(使用HiveServer2端口)所需的hadoop-common依赖关系替换为某些特定于spark的依赖项(当使用hive.server2.thrift.http.port时)?

此外,由于大多数连接功能似乎都在利用Hive,因此将Spark SQL用作查询引擎而不是Hive的关键是什么?

1 个答案:

答案 0 :(得分:0)

事实证明,我需要使用的URL与ambari中列出的Hive数据库主机URL不匹配。我在一个示例中遇到了正确的URL,以了解如何连接(具体到我的群集)。鉴于正确的URL,我能够使用HiveDriver建立连接而没有问题。