我是pyspark的新手,需要您的帮助才能实现以下目标。
用例:
动态纯json消息流通过带有\ n分隔符的TCP来传输。
每个消息都将插入到已经存在的hive orc表中。
例如:
{“ a”:“ 1”,“ b”:“ 2”}
{“ c”:“ 3”,“ d”:“ 4”}
{“ e”:“ 5”,“ f”:“ 6”}
预期:
蜂巢表:“ newdb”。“字母”
a b c d e f
1 2----
--3 4--
----5 6
以及是否应继续插入记录。
由于我是pyspark的新手,有人可以指导我,在哪里可以找到实现此目标的示例。
谢谢您的帮助