如何在Spark中将Kafka流转换为Json格式以解析Java语言中的数据

时间:2019-06-18 03:01:20

标签: java json apache-spark

我正在尝试将kafka Stream数据解析为JSON格式,以便可以解析实时传入的跨国数据以获取所需的逻辑,并进一步希望在Hbase表中对其进行更新。

1。传入的数据流将采用这种格式。

2。在需要提取from selective_handler_ohe import SelectiveHandlerOHE she = SelectiveHandlerOHE(raise_error_cols=['Country']) she.fit(X_train) she.transform(X_test).toarray() # array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.], # [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.]]) she.transform(X_test2) # --------------------------------------------------------------------------- # ValueError: Found unknown categories SA in column Country during fit card_idamountpostcode的地方

  

{“ card_id”:348702330256514,“ member_id”:000037495066290,“ amount”:   9084849,“ pos_id”:614677375609919,“邮政编码”:33946,   “ transaction_dt”:“ 11-02-2018 00:00:00”}

使用下面列出的代码创建了Kafka Consumer,但是不确定如何通过RDD将其进一步处理为Jason。

transaction_dt

我需要获取上述4个字段,然后通过查看基于类似数据的预先创建的hbase表来对其进行处理。

1 个答案:

答案 0 :(得分:0)

可以使用JSONObject和JSONPasrer类来完成。