在pyspark mllib随机森林中设置max-memory参数

时间:2017-12-05 18:22:14

标签: pyspark apache-spark-mllib random-forest

我使用RandomForest MLlib PySpark 2.3。如何设置MaxMemoryInMb?据我所知,这种方法没有在PySpark 2.3中实现。

我问,因为我的实验中收到了以下警告:

WARN RandomForest: Tree learning is using approximately 724037600 
bytes per iteration, which exceeds requested limit
maxMemoryUsage=268435456. This allows splitting 1 nodes in this iteration.

1 个答案:

答案 0 :(得分:1)

使用pypark.ml setMaxMemoryInMB

  

<强> setMaxMemoryInMB (值)     设置 maxMemoryInMB 的值。

maxMemoryInMB parameter

  

class pyspark.ml.classification。 DecisionTreeClassifier (self,...,maxMemoryInMB = 256,...)

自从Spark 1.4中首次发布以及setMaxMemoryInMB所属的地方以来,

出现在PySpark中。

pyspark.mllib被冻结(不会添加任何新功能)并在内部使用pyspark.ml.