有关此文档的文档无济于事,所以我正在寻找一个有更好了解的人。 PySpark中的KMeans对象具有可选参数setInitMode(),默认为'k-means ||'但也可以接受“随机”。我发现,当我显式设置默认值时,与根本不设置参数相比,得到的结果会有所不同。
例如,我可以提交一个包含以下任何内容的pyspark作业,该作业将无错误运行,因此必须有一个默认逻辑,该逻辑允许使用“ kmeans ||”之类的名称。通过。但是我不清楚基于initMode是否以一致的方式使用随机种子。
for i in df["HouseholdNumber"].unique():
# you didn't use this i in your code
ppl_in_house = (df.HouseholdNumber == i)
is_child = df.TypeOfPerson.isin(["Son", "Daughter"])
num_children = sum(ppl_in_house & is_child)