Question

我知道已经有一些关于它的话题，但是我还没有找到关于这个特定问题的话题。我的数据集中的因变量是Y，我有144个自变量。 Y和X只能取值1或0。数据看起来像

          Y    A469 T593 K022K A835 Z935 U83F W5326  ...
 Person1  1      1    1    1     0    0    0    0
 Person2  1      0    1    0     1    1    0    0
 Person3  0      0    0    1     0    0    1    1
 ...
summary(dataset)

仅提供所有观测值的描述性统计信息。我想要的是（用伪代码）：

summary(all variables if Y == 1 and Y == 0)

如果我能看到某某X在某某Y值中出现的频率将非常好。例如，均值（X4）= 0.04，如果Y = 1，则计数= 6。

Answer 1

编辑2 在阿克伦和格里高尔的评论之后，这里是解决方案

 data_summary <- dataset %>% group_by(y) %>% 
    mutate(n = n()) %>%
    summarise_all(mean)

如果您想查看超出屏幕显示范围的列，可以尝试使用

print(data_summary, width = 20)
View(data_summary)
select(data_summary, <<particular columns you want to see>>)
...

按一个变量分组，但对R中的所有其他变量（平均值）进行summary（）分组

1 个答案: