应用错误收集

我正着手建立一个从R / python使用的JDBC Spark连接。我知道pyspark和SparkR都可用 - 但这些似乎更适合交互式分析，特别是因为它们为用户保留了群集资源。我正在考虑更类似于Tableau ODBC Spark连接的东西 - 更轻量级（据我所知）支持简单的随机访问。虽然这似乎是可能的，并且有一些documentation但它并不清楚（对我而言）JDBC驱动程序的要求是什么。

我是否应该使用org.apache.hive.jdbc.HiveDriver来建立Hive连接，因为Hive和Spark SQL通过thrift似乎紧密相连？我是否应该将我的Hive连接（使用HiveServer2端口）所需的hadoop-common依赖关系替换为某些特定于spark的依赖项（当使用hive.server2.thrift.http.port时）？

此外，由于大多数连接功能似乎都在利用Hive，因此将Spark SQL用作查询引擎而不是Hive的关键是什么？

JDBC Spark连接

1 个答案: