Spark-主题建模上没有剩余磁盘空间

时间:2019-04-27 16:51:41

标签: apache-spark jupyter-notebook apache-spark-mllib apache-spark-ml apache-spark-2.3

我正在具有64GB RAM,32核和500GB磁盘空间的系统上运行Jupyter笔记本电脑。

大约700,000个文档将被建模为600个主题。词汇量为48000个单词。使用了100次迭代。

response = HTTParty.put(put_uri, body: @this_data.to_json, headers: { 'Content-Type' => 'application/json', 'Authorization' => @token })

运行10小时后出现磁盘配额超出错误

1 个答案:

答案 0 :(得分:0)

您提到遇到的错误消息表明已超出磁盘配额。我怀疑Spark正在将数据改写到磁盘上并且该磁盘空间不足。

为减轻这种情况,您应尝试将--conf spark.local.dir=<path to disk with space>显式传递到具有足够空间的位置。此参数指定Spark将用于将临时数据写入磁盘的路径(例如,在工作阶段之间写入随机数据时)。即使您的输入和输出数据不是特别大,某些算法也可以生成大量的混洗数据。

您还可以考虑在运行作业时使用du监视此路径的已分配/可用空间,以获取有关要写入多少中间数据的更多信息。这可以确认是造成大量可用数据浪费在可用磁盘空间上的问题。