应用错误收集

有关此文档的文档无济于事，所以我正在寻找一个有更好了解的人。 PySpark中的KMeans对象具有可选参数setInitMode（），默认为'k-means ||'但也可以接受“随机”。我发现，当我显式设置默认值时，与根本不设置参数相比，得到的结果会有所不同。

例如，我可以提交一个包含以下任何内容的pyspark作业，该作业将无错误运行，因此必须有一个默认逻辑，该逻辑允许使用“ kmeans ||”之类的名称。通过。但是我不清楚基于initMode是否以一致的方式使用随机种子。

for i in df["HouseholdNumber"].unique():
    # you didn't use this i in your code
    ppl_in_house = (df.HouseholdNumber == i)
    is_child = df.TypeOfPerson.isin(["Son", "Daughter"])

    num_children = sum(ppl_in_house & is_child)

KMeans对象上的setInitMode（）如何影响PySpark中使用setSeed（）参数？

0 个答案: