Question

我有一个文件.ped包含多个列，我想从中提取信息。这是我的数据样本（没有标题）：

第一列表示ID系列，第二列表示ID个体，第三列表示个体的性别。

我将表格作为数据框

阅读

ped <- read.table("pedigree.ped", header=FALSE)

如何计算存在的家庭数量（一个家庭可以出现多次，我想将它们视为一个）？我有一个性别栏，其中1个指定男性和2个女性，我如何在数据集中获得男性和女性的分布？

如果你能提供一些代码，我是R的新手！

先谢谢了。

Answer 1

由于您是R的新手，我建议先查看excel。您要求的操作非常简单，可以在Excel中完成。

如果你想使用R，那么请查看data.frame索引，子集化等。

如果您熟悉SQL，请查看sqldf package

家庭数量：

numFamilies <- length(unique(ped[,1]))

男性和女性人数雌性：

numMales <- sum(ped[,3] == 1)
numFemales <- sum(ped[,3] == 2)

Answer 2

尝试使用它来探索数据：

For family:
table(ped[,1])

For sex: 
table(ped[,3])