使用pyspark提取动态json值并将其存储(插入)到hive orc表中

时间:2018-08-09 14:54:22

标签: pyspark spark-streaming pyspark-sql


我是pyspark的新手,需要您的帮助才能实现以下目标。

用例:
动态纯json消息流通过带有\ n分隔符的TCP来传输。 每个消息都将插入到已经存在的hive orc表中。
例如:
{“ a”:“ 1”,“ b”:“ 2”}
{“ c”:“ 3”,“ d”:“ 4”}
{“ e”:“ 5”,“ f”:“ 6”}

预期:

蜂巢表:“ newdb”。“字母”

a b c d e f
1 2----
--3 4--
----5 6

以及是否应继续插入记录。

由于我是pyspark的新手,有人可以指导我,在哪里可以找到实现此目标的示例。

谢谢您的帮助

0 个答案:

没有答案