KMeans对象上的setInitMode()如何影响PySpark中使用setSeed()参数?

时间:2019-01-18 19:29:51

标签: pyspark k-means

有关此文档的文档无济于事,所以我正在寻找一个有更好了解的人。 PySpark中的KMeans对象具有可选参数setInitMode(),默认为'k-means ||'但也可以接受“随机”。我发现,当我显式设置默认值时,与根本不设置参数相比,得到的结果会有所不同。

例如,我可以提交一个包含以下任何内容的pyspark作业,该作业将无错误运行,因此必须有一个默认逻辑,该逻辑允许使用“ kmeans ||”之类的名称。通过。但是我不清楚基于initMode是否以一致的方式使用随机种子。

for i in df["HouseholdNumber"].unique():
    # you didn't use this i in your code
    ppl_in_house = (df.HouseholdNumber == i)
    is_child = df.TypeOfPerson.isin(["Son", "Daughter"])

    num_children = sum(ppl_in_house & is_child)

0 个答案:

没有答案