我使用RandomForest
MLlib PySpark 2.3。如何设置MaxMemoryInMb
?据我所知,这种方法没有在PySpark 2.3中实现。
我问,因为我的实验中收到了以下警告:
WARN RandomForest: Tree learning is using approximately 724037600
bytes per iteration, which exceeds requested limit
maxMemoryUsage=268435456. This allows splitting 1 nodes in this iteration.
答案 0 :(得分:1)
使用pypark.ml
setMaxMemoryInMB
<强> setMaxMemoryInMB 强>(值) 设置 maxMemoryInMB 的值。
自从Spark 1.4中首次发布以及class pyspark.ml.classification。 DecisionTreeClassifier (self,...,maxMemoryInMB = 256,...)
setMaxMemoryInMB
所属的地方以来,出现在PySpark中。
pyspark.mllib
被冻结(不会添加任何新功能)并在内部使用pyspark.ml.