使用r进行数据处理

时间:2013-04-06 01:43:38

标签: r

我有一个文件.ped包含多个列,我想从中提取信息。 这是我的数据样本(没有标题):

1  1  1 
1  2  1
2  3  2
3  4  1
3  5  2
...

第一列表示ID系列,第二列表示ID个体,第三列表示个体的性别。

我将表格作为数据框

阅读
ped <- read.table("pedigree.ped", header=FALSE)

如何计算存在的家庭数量(一个家庭可以出现多次,我想将它们视为一个)? 我有一个性别栏,其中1个指定男性和2个女性,我如何在数据集中获得男性和女性的分布?

如果你能提供一些代码,我是R的新手!

先谢谢了。

2 个答案:

答案 0 :(得分:2)

由于您是R的新手,我建议先查看excel。您要求的操作非常简单,可以在Excel中完成。

如果你想使用R,那么请查看data.frame索引,子集化等。

如果您熟悉SQL,请查看sqldf package

家庭数量:

numFamilies <- length(unique(ped[,1]))

男性和女性人数雌性:

numMales <- sum(ped[,3] == 1)
numFemales <- sum(ped[,3] == 2)

答案 1 :(得分:2)

尝试使用它来探索数据:

For family:
table(ped[,1])

For sex: 
table(ped[,3])