在两个以上的数据集中找到重叠的基因组坐标

时间:2015-04-15 18:31:48

标签: r bioconductor

我想比较并获取三个不同数据集中的重叠区域。比较也应该基于CNA。

 data1
      chr start         end       CNA
        1   170900001   171500001   loss
        1   11840001    19420001    loss
        1   60300001    62700001    gain
        1   25520001    25820001    gain

data2
    chr  start       end        CNA
    1   170940001   171500001   gain
    1   60300001    62700001    gain
    1   25520001    25840001    gain
    1   119860001   123040001   loss
    1   171500001   171580001   gain
    1   79240001    84420001    gain


data 3
chr  start       end        CNA
1   170950001   171500001   gain
1   60300001    62700001    loss
1   25530001    25840001    gain

预期产出

   chr  start       end        CNA
    1   170950001   171500001   gain
    1   25530001    25840001    gain

我使用GenomicRanges进行比较。首先,我尝试根据"增益"对基因组区域进行排序。和"损失"。然后我分别在每个组之间使用findOverlaps,例如。 df1< - findOverlaps(data1,data2)然后findOverlaps(df1,data3)。我知道有床选工具,但是如果有任何替代方法可以使用GenomicRanges获得所需的输出,我们会很高兴吗?

1 个答案:

答案 0 :(得分:0)

我做了ask a similar question several days ago。你没有提到GenomicRanges是否适合你。我发现IRange库对我来说效果更好。也许我的方法对你有用