apache-spark - Spark ML中的随机森林模型的随机性

我对Spark ML中的Random Forest实现的随机性有疑问。我观察到的是，对于在相同参数和相同种子的单独训练中训练的2个模型，评估结果略有不同。如果在较小的训练数据集上训练模型，则结果完全匹配，但是对于较大的训练数据集，结果是不同的。这是预期的吗？我假设结果是不同的，因为训练是在分布式EMR群集上进行的，这就是观察到的随机性的原因。

例如，假设一组固定的参数P

Time T1: Model M1
Time T2: Model M2

我现在在相同的数据集D上运行每个模型：

R1 = M1(D)
R2 = M2(D)

产生结果R1, R2 我希望

R1 = R2

确实如此，但事实并非如此。

Spark ML中的随机森林模型的随机性

0 个答案: