应用错误收集

在spark作业中调用JDBC到impala / hive并加载表

时间：2016-02-02 10:20:03

标签： apache-spark impala

我正在尝试在java中编写一个spark作业，它将打开与Impala的jdbc连接，让我加载一个表并执行其他操作。

我该怎么做？任何一个例子都会有很大的帮助。谢谢！

1 个答案:

答案 0 :(得分：0)

如果必须使用JDBC，那么您可能想要尝试的是在spark驱动程序中执行查询。

E.g。使用impyla for python，你可以从正常的元组列表中获得impala的结果。稍后您可以使用parallelize（）将此结果转换为spark rdd。