如何比较r中datapoint的两个相似表datapoint之间的差异

时间:2015-07-21 20:36:40

标签: r

我有一张表(df1),如下所示:

I           id col.3 col.4 col.5 col.6 col.7 col.8
M   Chr18_1369     G     G     T     G     G     G
M  Chr18_54979     G     N     A     N     G     G
M Chr18_187626     C     T     N     T     C     C
M Chr18_196254     C     C     G     C     N     G
M Chr18_224569     A     A     C     N     C     C
M Chr18_275670     T     T     C     C     T     T

有一些缺失的数据点由" N"在df1。在插补后,缺失的数据" N"将被一封信取代。输出为df2:

I           id col.3 col.4 col.5 col.6 col.7 col.8
M   Chr18_1369     G     G     T     G     G     G
M  Chr18_54979     G     G     A     G     G     G
M Chr18_187626     C     T     T     T     C     C
M Chr18_196254     C     C     G     C     C     G
M Chr18_224569     A     A     C     A     C     C
M Chr18_275670     T     T     C     C     T     T

我有另一个数据框(df3)

I           id col.3 col.4 col.5 col.6 col.7 col.8
M   Chr18_1369     G     G     T     G     G     G
M  Chr18_54979     G     G     A     A     G     G
M Chr18_187626     C     T     C     T     C     C
M Chr18_196254     C     C     G     C     C     G
M Chr18_224569     A     A     C     C     C     C
M Chr18_275670     T     T     C     C     T     T

df3具有与df2相同的结构,但是在缺失数据的相应位置中某些字符值可能不同" N"在df1。例如,df2 [2,6] ==" G"但df3 [2,6] ==" A"和df2 [3,5] ==&#34 ; T",DF3 [3,5] ==" C" ...  我想计算df2和df3之间的差异率。公式是:

U <- length(which(df1 =="N", arr.ind=TRUE))
Diff = length(difference(df2,df3))/U

我不知道如何获得长度(差异(df2,df3))。我需要一个优雅的脚本来完成这项任务。提前谢谢。

1 个答案:

答案 0 :(得分:2)

总和(df2 == df3)

不起作用?