我正在开发一个火花程序,我必须加载avro数据并对其进行处理。我试图了解如何为spark应用程序创建作业ID。我使用下面的代码行来加载avro数据。
sqlContext.read.format(" com.databricks.spark.avro&#34)。负载(路径)
据我所知,将根据程序中遇到的操作创建工作ID。我的工作定于每30分钟运行一次。当我查看此应用程序的spark历史服务器时,我看到为加载操作创建了一个job id。它有时只发生,日志看起来非常好。我正在使用spark 1.6.1
我很想知道加载操作是否在应用程序中创建了新的作业ID?
答案 0 :(得分:0)
通常,除非您为DataFrameReader
提供架构,否则Spark SQL中的数据加载操作不会延迟。根据源范围和影响,可以从简单的元数据访问到完整数据扫描。
在此特定情况下it is pretty much limited to file system scan和a single file access来阅读架构。