我的想法是使用Spark Streaming + Kafka从kafka总线获取事件。检索了一批用avro编码的事件后,我想用Spark Avro将它们转换为SparkSQL数据帧,然后将数据帧写入Hive表。
这种方法可行吗?我是Spark的新手,我不确定是否可以使用Spark Avro包来解码Kafka事件,因为在文档中仅提到了avro文件。但到目前为止,我的理解是有可能的。
下一个问题是:如果可能,我的理解是,我有一个符合SparkSQL的数据框,可以将其写入配置单元表。我的假设正确吗?
在此先感谢您的提示和提示。
答案 0 :(得分:2)
是的,您将能够做到这一点 the C# source code
可以将数据集另存为配置单元表或以orc格式写入数据。您还可以将数据以必需的格式写入hdfs并在其上创建外部配置单元表