我还有一个关于从我正在使用的大型数据框架中进行数据挖掘的问题,前几行如下:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 4 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 3 0
8 002 T 4 0
9 003 NA 1 NA
10 003 G 2 1
11 003 G 3 1
12 003 T 4 0
总的来说,我将为每个样本处理2000个样本和168个分析。
我想从这些数据中生成一个汇总表,告诉我每个'结果'有多少'样本'。 “结果”1,0或NA只有3个选项。我希望结果有一个看起来像这样的数据框(使用上面的数据):
Assay 1 0 NA
001 1 2 1
002 1 3 0
003 2 1 1
如上所述,有168种不同的分析方法,它们不是简单地用数字系列标记,因此必须从原始数据框中提取分析ID。 在理想的世界中,我还希望在数字旁边(或在不同的表格中)列出每个“结果”的样本百分比。
答案 0 :(得分:3)
喜欢@ MYaseen208,但添加了NA列:
> table(df[, c('Assay', 'Result')], useNA='ifany')
Result
Assay 0 1 <NA>
1 2 1 1
2 3 1 0
3 0 0 1
请参阅:?table
答案 1 :(得分:2)
尝试
table(df$Assay, df$Result,useNA="ifany")