我有3个数据集(txt.gz),我已经对它们进行了子集化,只包括p值为1 * 10 ^ -6或更小的观测值。
下一步是检查一个通用名称变量(名称是指SNP,遗传学)。
当前表:
name pval
rs2575876 8.20660e-07
rs11834972 4.20460e-07
rs11050138 4.23080e-07
rs12313631 7.13600e-07
rs485538 5.99060e-07
有什么想法吗?
答案 0 :(得分:1)
如果我理解正确的话:
对于名为b的数据库,table(b $ name)将让您查看名称重复的次数。
编辑:试试这个
创建表,列出每个数据集中名称的不同值
a2< - unique(a $ names)
b2< - unique(b $ names)
c2< - unique(c $ names)
追加他们
R1< - rbind(a2,b2,c2)
检查此表中的重复
x< - data.frame(table(R1))
根据需要操作数据框。即查找出现在多个数据集中的所有名称
x [x $ names> 1,]