apache-spark - 如何控制MLlib随机森林中的随机性

当我在Spark客户端模式下在MLlib中运行随机林时，我注意到即使使用相同的随机种子，结果也是每次都不同。我想根本原因是当Spark使用for i = 1:100 do something with Y(L1) end从HDFS输入数据时，数据到不同执行器的分布是随机的。

因此，即使在我为随机森林修复种子之后，结果也是不同的，因为数据本身每次都是不同的混洗。那是对的吗？是否可以使用相同的种子获得相同的结果？谢谢！