如何从kafka中读取Avro架构类型的事件并将其存储在Hive表中

时间:2018-06-29 15:40:44

标签: spark-streaming spark-avro

我的想法是使用Spark Streaming + Kafka从kafka总线获取事件。检索了一批用avro编码的事件后,我想用Spark Avro将它们转换为SparkSQL数据帧,然后将数据帧写入Hive表。

这种方法可行吗?我是Spark的新手,我不确定是否可以使用Spark Avro包来解码Kafka事件,因为在文档中仅提到了avro文件。但到目前为止,我的理解是有可能的。

下一个问题是:如果可能,我的理解是,我有一个符合SparkSQL的数据框,可以将其写入配置单元表。我的假设正确吗?

在此先感谢您的提示和提示。

1 个答案:

答案 0 :(得分:2)

是的,您将能够做到这一点 the C# source code

可以将数据集另存为配置单元表或以orc格式写入数据。您还可以将数据以必需的格式写入hdfs并在其上创建外部配置单元表