如何控制MLlib随机森林中的随机性

时间:2016-08-18 16:32:22

标签: apache-spark

当我在Spark客户端模式下在MLlib中运行随机林时,我注意到即使使用相同的随机种子,结果也是每次都不同。我想根本原因是当Spark使用for i = 1:100 do something with Y(L1) end 从HDFS输入数据时,数据到不同执行器的分布是随机的。

因此,即使在我为随机森林修复种子之后,结果也是不同的,因为数据本身每次都是不同的混洗。那是对的吗?是否可以使用相同的种子获得相同的结果?谢谢!

0 个答案:

没有答案