标签: apache-spark pyspark apache-spark-sql
有人可以让我知道如何创建火花工作。我有一个将数据摄取到 Hive 表的框架。但是,当我检查 spark UI 时,它显示已创建 50,000 个作业,每个阶段不处理超过几个字节的数据。
这会造成性能问题吗? 如何找出创造这么多工作的原因? 可以限制工作吗?
代码 显示代码对我来说非常困难。它是超过 2000 行的 Spark 框架。而制作MVP也很困难。然而,这就是过程。
我正在为 10k 个表执行以下过程。