我有一张表(df1),如下所示:
I id col.3 col.4 col.5 col.6 col.7 col.8
M Chr18_1369 G G T G G G
M Chr18_54979 G N A N G G
M Chr18_187626 C T N T C C
M Chr18_196254 C C G C N G
M Chr18_224569 A A C N C C
M Chr18_275670 T T C C T T
有一些缺失的数据点由" N"在df1。在插补后,缺失的数据" N"将被一封信取代。输出为df2:
I id col.3 col.4 col.5 col.6 col.7 col.8
M Chr18_1369 G G T G G G
M Chr18_54979 G G A G G G
M Chr18_187626 C T T T C C
M Chr18_196254 C C G C C G
M Chr18_224569 A A C A C C
M Chr18_275670 T T C C T T
我有另一个数据框(df3)
I id col.3 col.4 col.5 col.6 col.7 col.8
M Chr18_1369 G G T G G G
M Chr18_54979 G G A A G G
M Chr18_187626 C T C T C C
M Chr18_196254 C C G C C G
M Chr18_224569 A A C C C C
M Chr18_275670 T T C C T T
df3具有与df2相同的结构,但是在缺失数据的相应位置中某些字符值可能不同" N"在df1。例如,df2 [2,6] ==" G"但df3 [2,6] ==" A"和df2 [3,5] ==&#34 ; T",DF3 [3,5] ==" C" ... 我想计算df2和df3之间的差异率。公式是:
U <- length(which(df1 =="N", arr.ind=TRUE))
Diff = length(difference(df2,df3))/U
我不知道如何获得长度(差异(df2,df3))。我需要一个优雅的脚本来完成这项任务。提前谢谢。
答案 0 :(得分:2)
总和(df2 == df3)
不起作用?