尝试了解Spark UI作业选项卡

时间:2016-07-18 16:38:32

标签: apache-spark spark-avro

我正在开发一个火花程序,我必须加载avro数据并对其进行处理。我试图了解如何为spark应用程序创建作业ID。我使用下面的代码行来加载avro数据。

sqlContext.read.format(" com.databricks.spark.avro&#34)。负载(路径)

据我所知,将根据程序中遇到的操作创建工作ID。我的工作定于每30分钟运行一次。当我查看此应用程序的spark历史服务器时,我看到为加载操作创建了一个job id。它有时只发生,日志看起来非常好。我正在使用spark 1.6.1

我很想知道加载操作是否在应用程序中创建了新的作业ID?

1 个答案:

答案 0 :(得分:0)

通常,除非您为DataFrameReader提供架构,否则Spark SQL中的数据加载操作不会延迟。根据源范围和影响,可以从简单的元数据访问到完整数据扫描。

在此特定情况下it is pretty much limited to file system scana single file access来阅读架构。