应用错误收集

时间：2016-07-18 16:38:32

标签： apache-spark spark-avro

我正在开发一个火花程序，我必须加载avro数据并对其进行处理。我试图了解如何为spark应用程序创建作业ID。我使用下面的代码行来加载avro数据。

sqlContext.read.format（＆＃34; com.databricks.spark.avro＆＃34）。负载（路径）

据我所知，将根据程序中遇到的操作创建工作ID。我的工作定于每30分钟运行一次。当我查看此应用程序的spark历史服务器时，我看到为加载操作创建了一个job id。它有时只发生，日志看起来非常好。我正在使用spark 1.6.1

我很想知道加载操作是否在应用程序中创建了新的作业ID？

答案 0 :(得分：0)

通常，除非您为DataFrameReader提供架构，否则Spark SQL中的数据加载操作不会延迟。根据源范围和影响，可以从简单的元数据访问到完整数据扫描。