我对Spark ML中的Random Forest实现的随机性有疑问。我观察到的是,对于在相同参数和相同种子的单独训练中训练的2个模型,评估结果略有不同。 如果在较小的训练数据集上训练模型,则结果完全匹配,但是对于较大的训练数据集,结果是不同的。这是预期的吗?我假设结果是不同的,因为训练是在分布式EMR群集上进行的,这就是观察到的随机性的原因。
例如,假设一组固定的参数P
Time T1: Model M1
Time T2: Model M2
我现在在相同的数据集D上运行每个模型:
R1 = M1(D)
R2 = M2(D)
产生结果R1, R2
我希望
R1 = R2
确实如此,但事实并非如此。