我知道已经有一些关于它的话题,但是我还没有找到关于这个特定问题的话题。 我的数据集中的因变量是Y,我有144个自变量。 Y和X只能取值1或0。数据看起来像
Y A469 T593 K022K A835 Z935 U83F W5326 ...
Person1 1 1 1 1 0 0 0 0
Person2 1 0 1 0 1 1 0 0
Person3 0 0 0 1 0 0 1 1
...
summary(dataset)
仅提供所有观测值的描述性统计信息。我想要的是(用伪代码):
summary(all variables if Y == 1 and Y == 0)
如果我能看到某某X在某某Y值中出现的频率将非常好。例如,均值(X4)= 0.04,如果Y = 1,则计数= 6。
答案 0 :(得分:2)
编辑2 在阿克伦和格里高尔的评论之后,这里是解决方案
data_summary <- dataset %>% group_by(y) %>%
mutate(n = n()) %>%
summarise_all(mean)
如果您想查看超出屏幕显示范围的列,可以尝试使用
print(data_summary, width = 20)
View(data_summary)
select(data_summary, <<particular columns you want to see>>)