创建一个矩阵以显示多个GRanges之间的重叠

时间:2019-02-28 08:58:42

标签: r bioinformatics bioconductor

我正在尝试找到一种方法,可以在比较不同的GRange对象时有效地提取显示为'0'或'1'的矩阵。在我的示例中:

df <- data.frame(chr = c("chr1", "chr10"), start = c(1,4), end=c(2, 4))
gr.1 <- makeGRangesFromDataFrame(df)

df <- data.frame(chr = c("chr1", "chr10"), start = c(2,3), end=c(2, 4))
gr.2 <- makeGRangesFromDataFrame(df)

df <- data.frame(chr = c("chr1"), start = c(1), end=c(1))
gr.3 <- makeGRangesFromDataFrame(df)

我尝试findOverlaps来评估这些区域之间的重叠,但是显然不能处理两个以上的GRanges

> GenomicRanges::findOverlaps(gr.1, gr.2, gr.3)
> Error in IRanges:::NCList_find_overlaps_in_groups(ranges(query),
> q_space,  :    'maxgap' must be a single integer

此外,我所需的输出将类似于以下示例数据帧:

out <- "gr.1 gr.2 gr.3
chr1-1 1  0  1
chr1-2 1  1  0
chr10-3 0 1  0
chr10-4 1 1  0"

out <- read.table(text=out, header=TRUE)

有什么想法可以明智地将其导出吗?

1 个答案:

答案 0 :(得分:1)

首先,这是一个局部解决方案,它仅显示第一个和任何其他GRanges之间的重叠区域(这将产生与bedtools intersect中的结果相似的结果,该结果允许一个到“ 同时识别单个查询(-a)文件和多个数据库文件(-b)之间的重叠“);这应该是进一步完善的良好起点。

我们可以定义一个函数,该函数可以使用任意数量的GRanges并使用GRanges来标识第一个GRanges与任何其他findOverlaps之间的重叠范围;然后从pintersect获得相交区域。

请注意,我使用了常见的tidyverse语法;尽管这并不是绝对必要的(对于每个purrr::map / purrr::map2函数,都可以使用它们的基数R lapply / mapply等效项),但我更喜欢tidyverse方法提高代码的可读性。

multiOverlap <- function(...) {
    require(GenomicRanges)
    require(tidyverse)

    # Store GRanges in list
    lst <- list(...)
    names(lst) <- paste0("gr", 1:length(lst))

    # Calculate mutual overlaps
    lst.matches <- map(lst[-1L], ~ findOverlaps(lst[[1L]], .x))

    # List of intersecting regions
    lst.gr <- map2(
        lst[-1L], lst.matches,
        ~pintersect(lst[[1]][queryHits(.y)], .x[subjectHits(.y)]))
    names(lst.gr) <- paste0("gr1-gr", 2:length(lst))

    # Convert GRanges to data.frame and reshape data
    map(lst.gr, ~.x %>%
        as.data.frame() %>%
        unite(locus, seqnames, start, sep = "-") %>%
        select(locus)) %>%
        bind_rows(.id = "id") %>%
        separate(id, into = c("grx", "gry")) %>%
        gather(gr, no, -locus) %>%
        transmute(
            locus,
            no,
            val = 1) %>%
            spread(no, val, fill = 0)
}

将此功能应用于三个样本GRanges时,我们得到以下结果

multiOverlap(gr.1, gr.2, gr.3)
#    locus gr1 gr2 gr3
#1  chr1-1   1   0   1
#2  chr1-2   1   1   0
#3 chr10-4   1   1   0

更新

另一个(快速)选项可能是使用data.table;尤其是在使用基因组数据data.table的传递参考属性时,避免深层复制,使其变得非常有吸引力(而且速度很快)。

这是一种精确再现您的预期输出的解决方案

# Load the library
library(data.table)

# Convert GRanges to data.table and row-bind entries
dt <- rbindlist(
    lapply(list(gr.1 = gr.1, gr.2 = gr.2, gr.3 = gr.3), as.data.table),
    idcol = "id")

# Remove width and strand
dt[, c("width", "strand") := NULL]

# Expand rows by range using start and end
dt <- dt[, .(pos = seq(start, end, by = 1L)), by = .(id, seqnames, grp = 1:nrow(dt))]

# Remove helper group label
dt[, grp := NULL]

# Unite seqnames and pos into one column
dt <- dt[, .(locus = do.call(paste, c(.SD, sep = "-")), id, pos), .SDcols = seqnames:pos]

# Add count variable
dt[, ct := 1]

# Convert from long to wide
dcast(dt, locus ~ id, value.var = "ct", fill = 0)
#     locus gr.1 gr.2 gr.3
#1:  chr1-1    1    0    1
#2:  chr1-2    1    1    0
#3: chr10-3    0    1    0
#4: chr10-4    1    1    0

我们已经完成了:-)如有必要,可以很方便地在便利功能中将以上几行换行。