我正在从 Kafka 读取数据并加载到数据仓库中,我是从一个 Kafka 主题 创建一个数据框并在应用所需的转换后,我正在从中创建多个 DF 并将这些 DF 加载到不同的表中,但此操作是按顺序发生的。有没有办法并行化这个表加载过程?
root
|-- attribute1Formatted: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- accexecattributes: struct (nullable = true)
| | | |-- id: string (nullable = true)
| | | |-- name: string (nullable = true)
| | | |-- primary: boolean (nullable = true)
| | |-- accountExecUUID: string (nullable = true)
|-- attribute2Formatted: struct (nullable = true)
| |-- Jake-DOT-Sandler@xyz.com: struct (nullable = true)
| | |-- id: string (nullable = true)
| | |-- name: string (nullable = true)
| | |-- primary: boolean (nullable = true)
分别为attribute1Formatted和attribute2Formatted创建了两个不同的数据框,并且这些DF被保存到不同表中的数据库中。
答案 0 :(得分:0)
我对火花流的了解不多,但我相信流是迭代微批处理,并且在火花批处理执行中,每个动作都有一个接收器/输出。所以你不能一次执行将它存储在不同的表中。
现在