应用错误收集

我是pyspark的新手，需要您的帮助才能实现以下目标。

用例：
动态纯json消息流通过带有\ n分隔符的TCP来传输。每个消息都将插入到已经存在的hive orc表中。
例如：
{“ a”：“ 1”，“ b”：“ 2”}
{“ c”：“ 3”，“ d”：“ 4”}
{“ e”：“ 5”，“ f”：“ 6”}

预期：

蜂巢表：“ newdb”。“字母”

a b c d e f
1 2----
--3 4--
----5 6

以及是否应继续插入记录。

由于我是pyspark的新手，有人可以指导我，在哪里可以找到实现此目标的示例。

谢谢您的帮助

使用pyspark提取动态json值并将其存储（插入）到hive orc表中

0 个答案: