Question

我想比较并获取三个不同数据集中的重叠区域。比较也应该基于CNA。

 data1
      chr start         end       CNA
        1   170900001   171500001   loss
        1   11840001    19420001    loss
        1   60300001    62700001    gain
        1   25520001    25820001    gain

data2
    chr  start       end        CNA
    1   170940001   171500001   gain
    1   60300001    62700001    gain
    1   25520001    25840001    gain
    1   119860001   123040001   loss
    1   171500001   171580001   gain
    1   79240001    84420001    gain


data 3
chr  start       end        CNA
1   170950001   171500001   gain
1   60300001    62700001    loss
1   25530001    25840001    gain

预期产出

   chr  start       end        CNA
    1   170950001   171500001   gain
    1   25530001    25840001    gain

我使用GenomicRanges进行比较。首先，我尝试根据＆＃34;增益＆＃34;对基因组区域进行排序。和＆＃34;损失＆＃34;。然后我分别在每个组之间使用findOverlaps，例如。 df1＆lt; - findOverlaps（data1，data2）然后findOverlaps（df1，data3）。我知道有床选工具，但是如果有任何替代方法可以使用GenomicRanges获得所需的输出，我们会很高兴吗？

Answer 1

我做了ask a similar question several days ago。你没有提到GenomicRanges是否适合你。我发现IRange库对我来说效果更好。也许我的方法对你有用

在两个以上的数据集中找到重叠的基因组坐标

1 个答案: