Question

我正在尝试将kafka Stream数据解析为JSON格式，以便可以解析实时传入的跨国数据以获取所需的逻辑，并进一步希望在Hbase表中对其进行更新。

1。传入的数据流将采用这种格式。

2。在需要提取from selective_handler_ohe import SelectiveHandlerOHE she = SelectiveHandlerOHE(raise_error_cols=['Country']) she.fit(X_train) she.transform(X_test).toarray() # array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.], # [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.]]) she.transform(X_test2) # --------------------------------------------------------------------------- # ValueError: Found unknown categories SA in column Country during fit，card_id，amount和postcode的地方

{“ card_id”：348702330256514，“ member_id”：000037495066290，“ amount”： 9084849，“ pos_id”：614677375609919，“邮政编码”：33946， “ transaction_dt”：“ 11-02-2018 00:00:00”}

使用下面列出的代码创建了Kafka Consumer，但是不确定如何通过RDD将其进一步处理为Jason。

transaction_dt

我需要获取上述4个字段，然后通过查看基于类似数据的预先创建的hbase表来对其进行处理。

Answer 1

可以使用JSONObject和JSONPasrer类来完成。

如何在Spark中将Kafka流转换为Json格式以解析Java语言中的数据

1 个答案: