我有一个看起来像
的数据集| ID | Category | Failure |
|----+----------+---------|
| 1 | a | 0 |
| 1 | b | 0 |
| 1 | b | 0 |
| 1 | a | 0 |
| 1 | c | 0 |
| 1 | d | 0 |
| 1 | c | 0 |
| 1 | failure | 1 |
| 2 | c | 0 |
| 2 | d | 0 |
| 2 | d | 0 |
| 2 | b | 0 |
这是通过事件的中间序列{a, b, c, d}
,每个ID可能以失败事件结束的数据。我希望能够通过失败事件计算每个中间事件发生的ID数。
所以,我想要一张表格
| | a | b | c | d |
|------------+---+---+---+---|
| Failure | 4 | 5 | 6 | 2 |
| No failure | 9 | 8 | 6 | 9 |
其中,例如,数字4表示发生a
的4个ID以失败告终。
我将如何在R中执行此操作?
答案 0 :(得分:1)
您可以使用table
例如:
dat <- data.frame(categ=sample(letters[1:4],20,rep=T),
failure=sample(c(0,1),20,rep=T))
res <- table(dat$failure,dat$categ)
rownames(res) <- c('Failure','No failure')
res
a b c d
Failure 3 2 2 1
No failure 1 2 4 5
您可以使用barplot
:
barplot(res)
编辑要通过ID获取此信息,您可以使用by
例如:
dat <- data.frame(ID=c(rep(1,9),rep(2,11)),categ=sample(letters[1:4],20,rep=T),
failure=sample(c(0,1),20,rep=T))
by(dat,dat$ID,function(x)table(x$failure,x$categ))
dat$ID: 1
a b c d
0 1 2 1 3
1 1 1 0 0
---------------------------------------------------------------------------------------
dat$ID: 2
a b c d
0 1 2 3 0
1 1 3 1 0
使用 tapply 编辑
另一种方法是使用tapply
with(dat,tapply(categ,list(failure,categ,ID),length))