可重用的sparkcontext实例

时间:2017-09-19 01:48:21

标签: apache-spark pyspark hdfs spark-jobserver

我对Big Data很陌生,目前,我正在开发一个CLI项目,该项目使用apache spark执行一些文本解析。

当键入命令时,将实例化一个新的sparkcontext,并从hdfs实例读取一些文件。然而,火花花费了太多时间来初始化sparkcontext甚至是sparksession对象。

所以,我的问题是: - 有没有办法在这些命令之间重用sparkcontext实例来减少这种开销?我听说过火花作业服务器,但是部署本地服务器太困难,因为它的主要指南有点令人困惑。

谢谢。

P.S。:我正在使用 pyspark

1 个答案:

答案 0 :(得分:1)

这可能不是一个好主意,因为除非您显式调用rdd.unpersist(),否则中间的随机文件永远都不会被清除。如果shuffle文件在一段时间内没有被清除,您将开始在群集上遇到磁盘空间问题。