Spark ML中的随机森林模型的随机性

时间:2019-09-23 16:22:16

标签: apache-spark random-forest apache-spark-mllib apache-spark-ml

我对Spark ML中的Random Forest实现的随机性有疑问。我观察到的是,对于在相同参数和相同种子的单独训练中训练的2个模型,评估结果略有不同。 如果在较小的训练数据集上训练模型,则结果完全匹配,但是对于较大的训练数据集,结果是不同的。这是预期的吗?我假设结果是不同的,因为训练是在分布式EMR群集上进行的,这就是观察到的随机性的原因。

例如,假设一组固定的参数P

Time T1: Model M1
Time T2: Model M2

我现在在相同的数据集D上运行每个模型:

R1 = M1(D)
R2 = M2(D)

产生结果R1, R2 我希望

R1 = R2

确实如此,但事实并非如此。

0 个答案:

没有答案