r中约10个因子共存的饼图

时间:2011-10-31 10:59:19

标签: r grouping data-representation

我有一个两列数据集,包含大约30000个集群和10个这样的因素:

cluster-1 Factor1
cluster-1 Factor2
...
cluster-2 Factor2
cluster-2 Factor3
...

我想代表群集中的因素共同出现。像“因子1 +因子3 +因子5在1234簇”中的东西,等等,用于不同的组合。我以为我可以像饼图一样,但有10个因素,我认为可能有太多的组合。

什么是代表这个的好方法?

1 个答案:

答案 0 :(得分:2)

这里 是一个很好的编程问题,应该解决这个问题:

如何计算不同群集中因子的共现数?

首先模拟一些数据:

n = 1000

set.seed(12345)
n.clusters = 100
clusters = rep(1:n.clusters, length.out=n)

n.factors = 10
factors = round(rnorm(n, n.factors/2, n.factors/5))
factors[factors > n.factors] = n.factors
factors[factors < 1] = 1

data = data.frame(cluster=clusters, factor=factors)
> data
  cluster factor
1       1      6
2       2      6
3       3      5
4       4      4
5       5      6
6       6      1
...

然后,这里的代码可以用来表示每个因素组合在集群中出现的次数:

counts = with(data, table(tapply(factor, cluster, function(x) paste(as.character(sort(unique(x))), collapse=''))))

这可以表示为一个简单的饼图,例如,

dev.new(width=5, height=5)
pie(counts[counts>1])

enter image description here

但是这样的简单计数通常最有效地显示为排序表。有关详情,请查看Edward Tufte