标签: apache-spark
当我在Spark客户端模式下在MLlib中运行随机林时,我注意到即使使用相同的随机种子,结果也是每次都不同。我想根本原因是当Spark使用for i = 1:100 do something with Y(L1) end 从HDFS输入数据时,数据到不同执行器的分布是随机的。
for i = 1:100 do something with Y(L1) end
因此,即使在我为随机森林修复种子之后,结果也是不同的,因为数据本身每次都是不同的混洗。那是对的吗?是否可以使用相同的种子获得相同的结果?谢谢!