用于数据摄取框架的多个或单个Spark应用程序?

时间:2019-06-25 18:05:19

标签: apache-spark livy spark-jobserver

我正在使用Java Spark构建数据提取框架(以从多个文件中提取数据)。我经常需要同时处理多个文件,并且想知道处理该方案的最佳方法是什么。

我将spark.dynamic.allocation.enabled设置为True,所以目前我正在为每个要处理的文件启动一个spark应用程序。

sparkSession = SparkSession.builder()
                .config(sparkConf)
                .enableHiveSupport()
                .getOrCreate();

我在jar中使用上述行创建一个SparkSession。每次需要提取文件时,都会触发jar并创建一个新的Spark应用程序。

此方法是否有缺点-创建sparkcontexts / sparksessions是否会造成开销?我应该运行一个sparkSession并通过该sparkSession处理我的所有文件吗?

0 个答案:

没有答案