Spark UI - 在舞台细节

时间:2017-01-08 17:50:18

标签: apache-spark spark-dataframe emr amazon-emr

正在尝试基本的东西来理解任务阶段并在Spark中更好地改组。数据集为256 MB

在zeppelin中试过这个

val tmpDF = spark.read
  .option("header", "true")
  .option("delimiter", ",")
  .option("inferSchema", "true")
  .csv("s3://l4b-d4t4/wikipedia/pageviews-by-second-tsv")
tmpDF.count

这启动了4个工作 -

  • 第一个陈述的3个工作和
  • 1个工作,有2个阶段的tmpDF.count

与计数陈述相对应的工作的最后阶段有一些令人费解的数据,我无法解释。

  1. 阶段详细信息部分显示“输入大小/记录:186.6 MB / 7200000”和Executor的聚合度量标准将“输入大小/记录”称为“186.6 MB / 5371292” - Stage Details UI

  2. 在任务列表中,一个特定的服务器ip-xxx-60.eu-west-1.compute.internal有4个任务,“0.0 B / 457130”作为“输入大小/记录”的值 - Task Details UI

  3. 我最初认为这是一些本地磁盘缓存或与EMRFS有关的东西。但是,一旦我缓存了数据帧并再次进行了计数,它就显示了对应于16个分区的所有16个任务的“16.8 MB / 46”。

    任何更好地理解这一点的链接/指针都非常有用

0 个答案:

没有答案