我有一个文件.ped包含多个列,我想从中提取信息。 这是我的数据样本(没有标题):
1 1 1
1 2 1
2 3 2
3 4 1
3 5 2
...
第一列表示ID系列,第二列表示ID个体,第三列表示个体的性别。
我将表格作为数据框
阅读ped <- read.table("pedigree.ped", header=FALSE)
如何计算存在的家庭数量(一个家庭可以出现多次,我想将它们视为一个)? 我有一个性别栏,其中1个指定男性和2个女性,我如何在数据集中获得男性和女性的分布?
如果你能提供一些代码,我是R的新手!
先谢谢了。
答案 0 :(得分:2)
由于您是R的新手,我建议先查看excel。您要求的操作非常简单,可以在Excel中完成。
如果你想使用R,那么请查看data.frame索引,子集化等。
如果您熟悉SQL,请查看sqldf package
家庭数量:
numFamilies <- length(unique(ped[,1]))
男性和女性人数雌性:
numMales <- sum(ped[,3] == 1)
numFemales <- sum(ped[,3] == 2)
答案 1 :(得分:2)
尝试使用它来探索数据:
For family:
table(ped[,1])
For sex:
table(ped[,3])