应用错误收集

时间：2017-10-15 03:10:43

标签： r k-means

我有两组。治疗组接触媒体;对照组没有媒体。它们通过数据框中的分类变量来区分。（暴露于媒体= 1，无媒体= 0）

现在，我想检查这两个群体之间是否存在明显差异。为此，将k-means算法与两个聚类应用于四个变量（黑人人口比例，男性人口比例，西班牙裔人口比例，对数等级中位收入）。

如何在R中执行此操作？任何人都可以提供一些提示吗？谢谢！

答案 0 :(得分：0)

试试这个：

km <-kmeans(your data, 2, nstart=10)

您的数据作为data.frame（您的整个数据，或者您可以选择您感兴趣的变量）。您需要选择群集数量（此处为2）。理解数据的一个好习惯是应用不同数量的集群，然后查看哪一个更适合您的数据（例如使用任何标准方法，如AIC或BIC）。

k-means是一种应用于集群数据的方法。这些数据来自不同的分布，我们想知道每个观察的来源（来自哪个分布）。

您还可以查看有关R中kmeans的许多教程。例如，