spark结构化流连接——流静态连接

时间:2021-04-16 03:11:38

标签: apache-spark pyspark

火花:2.4.7
蟒蛇:3.7.6
我在火花集群上运行以下代码

spark = SparkSession....

# read stream data from kafka, each micro-batch: ~10 rows
ds = spark.readStream....

# load batch data from kafka, batch: 1000 rows
df = spark.read....

ds = ds.join(df, on=[...], how="inner")

ds.writeStream.outputMode("update")....trigger(processingTime="0 seconds").start()

Spark Web UI 的流式传输显示 queryPlanning 为 3200 毫秒。
不使用 join 时,queryPlanning 仅为 100 毫秒。

为什么带有连接的 queryPlanning 非常耗时?

谢谢!

0 个答案:

没有答案