应用k-means检验R中两组之间的差异

时间:2017-10-15 03:10:43

标签: r k-means

我有两组。治疗组接触媒体;对照组没有媒体。它们通过数据框中的分类变量来区分。 (暴露于媒体= 1,无媒体= 0)

现在,我想检查这两个群体之间是否存在明显差异。为此,将k-means算法与两个聚类应用于四个变量(黑人人口比例,男性人口比例,西班牙裔人口比例,对数等级中位收入)。

如何在R中执行此操作?任何人都可以提供一些提示吗?谢谢!

1 个答案:

答案 0 :(得分:0)

试试这个:

km <-kmeans(your data, 2, nstart=10)

您的数据作为data.frame(您的整个数据,或者您可以选择您感兴趣的变量)。您需要选择群集数量(此处为2)。理解数据的一个好习惯是应用不同数量的集群,然后查看哪一个更适合您的数据(例如使用任何标准方法,如AIC或BIC)。

k-means是一种应用于集群数据的方法。这些数据来自不同的分布,我们想知道每个观察的来源(来自哪个分布)。

您还可以查看有关R中kmeans的许多教程。例如,

https://onlinecourses.science.psu.edu/stat857/node/125

https://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

http://www.statmethods.net/advstats/cluster.html