如何使用Spark流将数据从Kafka插入Kudu

时间:2018-08-08 13:12:35

标签: apache-spark apache-kafka spark-streaming apache-kudu

我有一个Spark流媒体应用程序,可以监听Kafka主题。 获取数据时,我需要对其进行处理并发送给Kudu。 当前,我正在使用main,并使用数据框调用插入操作。 为了从我的数据创建数据框架,我需要调用org.apache.kudu.spark.kudu.KuduContext API,以便可以使用sqlContext创建数据框架。

有没有一种方法可以创建数据帧/将数据插入Kudu,而无需调用collect(),这当然很昂贵?

我们正在使用Spark 1.6

1 个答案:

答案 0 :(得分:0)

Sku的Kudu Sink现在支持结构化流:https://issues.apache.org/jira/browse/KUDU-2640