apache-spark - 可重用的sparkcontext实例 - Thinbug

可重用的sparkcontext实例

时间：2017-09-19 01:48:21

标签： apache-spark pyspark hdfs spark-jobserver

我对Big Data很陌生，目前，我正在开发一个CLI项目，该项目使用apache spark执行一些文本解析。

当键入命令时，将实例化一个新的sparkcontext，并从hdfs实例读取一些文件。然而，火花花费了太多时间来初始化sparkcontext甚至是sparksession对象。

所以，我的问题是： - 有没有办法在这些命令之间重用sparkcontext实例来减少这种开销？我听说过火花作业服务器，但是部署本地服务器太困难，因为它的主要指南有点令人困惑。

谢谢。

P.S。：我正在使用 pyspark

1 个答案:

答案 0 :(得分：1)

这可能不是一个好主意，因为除非您显式调用rdd.unpersist()，否则中间的随机文件永远都不会被清除。如果shuffle文件在一段时间内没有被清除，您将开始在群集上遇到磁盘空间问题。