如何创造火花工作?

时间:2021-02-18 18:26:23

标签: apache-spark pyspark apache-spark-sql

有人可以让我知道如何创建火花工作。我有一个将数据摄取到 Hive 表的框架。但是,当我检查 spark UI 时,它显示已创建 50,000 个作业,每个阶段不处理超过几个字节的数据。

这会造成性能问题吗? 如何找出创造这么多工作的原因? 可以限制工作吗?

enter image description here

代码 显示代码对我来说非常困难。它是超过 2000 行的 Spark 框架。而制作MVP也很困难。然而,这就是过程。

我正在为 10k 个表执行以下过程。

  1. 读取文件(不使用 spark)
  2. 解析文件(不使用 spark)
  3. 从读取的数据创建数据框。
  4. 找出删除并将其写入s3
  5. 找出插入内容并将其写入 s3。

0 个答案:

没有答案
相关问题