我正在尝试将kafka Stream数据解析为JSON格式,以便可以解析实时传入的跨国数据以获取所需的逻辑,并进一步希望在Hbase表中对其进行更新。
1。传入的数据流将采用这种格式。
2。在需要提取from selective_handler_ohe import SelectiveHandlerOHE
she = SelectiveHandlerOHE(raise_error_cols=['Country'])
she.fit(X_train)
she.transform(X_test).toarray()
# array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
# [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.]])
she.transform(X_test2)
# ---------------------------------------------------------------------------
# ValueError: Found unknown categories SA in column Country during fit
,card_id
,amount
和postcode
的地方
{“ card_id”:348702330256514,“ member_id”:000037495066290,“ amount”: 9084849,“ pos_id”:614677375609919,“邮政编码”:33946, “ transaction_dt”:“ 11-02-2018 00:00:00”}
使用下面列出的代码创建了Kafka Consumer,但是不确定如何通过RDD将其进一步处理为Jason。
transaction_dt
我需要获取上述4个字段,然后通过查看基于类似数据的预先创建的hbase表来对其进行处理。
答案 0 :(得分:0)
可以使用JSONObject和JSONPasrer类来完成。