Kafka火花流动态模式

时间:2017-07-09 19:30:33

标签: apache-spark dynamic apache-kafka

我用动态架构扼杀Kafka火花流。 我从Kafka(KafkaUtils.createDirectStream)消费,每个消息/ JSON字段都可以嵌套,每个字段都可以出现在某些消息中,有时不会出现。

我发现的唯一一件事就是: Spark 2.0 implicit encoder, deal with missing column when type is Option[Seq[String]] (scala)

案例类MyTyp(column1:Option [Any],column2:Option [Any] ....) 这将涵盖(我不确定)可能出现的字段和嵌套的Fileds。

任何批准/其他想法/一般帮助将不胜感激......

1 个答案:

答案 0 :(得分:1)

经过长时间的整合和跟踪,解决非模式Kafka消费的两种方法:1)投掷"编辑/验证"每条消息都包含" lambda"功能。不是我的最爱。 2)Spark:在每个微批次上获得展平模式并交叉所需的列。使用spark SQL查询所需数据的帧。这对我有用。