过滤掉3个数据集之间的常见观察结果

时间:2013-04-11 14:44:37

标签: r

我有3个数据集(txt.gz),我已经对它们进行了子集化,只包括p值为1 * 10 ^ -6或更小的观测值。

下一步是检查一个通用名称变量(名称是指SNP,遗传学)。

当前表:

name        pval

rs2575876   8.20660e-07

rs11834972  4.20460e-07

rs11050138  4.23080e-07

rs12313631  7.13600e-07

rs485538    5.99060e-07

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

如果我理解正确的话:

对于名为b的数据库,table(b $ name)将让您查看名称重复的次数。

编辑:试试这个

  1. 创建表,列出每个数据集中名称的不同值

    a2< - unique(a $ names)

    b2< - unique(b $ names)

    c2< - unique(c $ names)

  2. 追加他们

    R1< - rbind(a2,b2,c2)

  3. 检查此表中的重复

    x< - data.frame(table(R1))

  4. 根据需要操作数据框。即查找出现在多个数据集中的所有名称

    x [x $ names> 1,]