应用错误收集

如何使用Spark流将数据从Kafka插入Kudu

时间：2018-08-08 13:12:35

标签： apache-spark apache-kafka spark-streaming apache-kudu

我有一个Spark流媒体应用程序，可以监听Kafka主题。获取数据时，我需要对其进行处理并发送给Kudu。当前，我正在使用main，并使用数据框调用插入操作。为了从我的数据创建数据框架，我需要调用org.apache.kudu.spark.kudu.KuduContext API，以便可以使用sqlContext创建数据框架。

有没有一种方法可以创建数据帧/将数据插入Kudu，而无需调用collect()，这当然很昂贵？

我们正在使用Spark 1.6

1 个答案:

答案 0 :(得分：0)

Sku的Kudu Sink现在支持结构化流：https://issues.apache.org/jira/browse/KUDU-2640

如何使用Java使用foreachRDD发送数据
如何将数据从Kafka传递到Spark Streaming？
如何使用Spark流将数据从Kafka插入Kudu
使用结构化流Kafka消耗来自Azure事件中心的数据
如何使用Spark Streaming将JSON数据从Kafka插入MySQL？
如何使用Spark Streaming以更有效的方式将数据从Kafka插入Hbase？
流数据如何处理？
如何使用Spark结构化流连续从kafka流数据？
使用Slick将Spark Streaming中的批量数据插入数据库
无法使用Spark Streaming从Kafka主题读取数据

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？