在spark作业中调用JDBC到impala / hive并加载表

时间:2016-02-02 10:20:03

标签: apache-spark impala

我正在尝试在java中编写一个spark作业,它将打开与Impala的jdbc连接,让我加载一个表并执行其他操作。

我该怎么做?任何一个例子都会有很大的帮助。谢谢!

1 个答案:

答案 0 :(得分:0)

如果必须使用JDBC,那么您可能想要尝试的是在spark驱动程序中执行查询。

E.g。使用impyla for python,你可以从正常的元组列表中获得impala的结果。稍后您可以使用parallelize()将此结果转换为spark rdd。