基因组区间交集:仅返回最重叠的查询

时间:2015-10-23 22:05:46

标签: r bioconductor

我正在处理一些基因组数据,我想将一个gtf外显子文件与床文件相交,但只返回最重叠的特征。交叉点有很多工具,但我没有找到一个可以提供我想要的输出的工具: 对于gtf文件中与床文件中的间隔重叠的每个基因,返回一个最大重叠的床间隔。

我认为来自Bioconductor的GenomicRanges :: findOverlaps是一个很好的解决方案,但我无法确定如何做到这一点。类似的东西:

output <- findOverlaps(query.gtf, subject.bed, minoverlap=10, ignore.strand=F)

其次是:

aggregate(output[transcript_id_field], list(#bp_field), max)

如果没有简单的解决方案,我准备写一个脚本从完整的交集文件中提取这些信息,但是把这个问题放在那里我希望有人可能有更有效的解决方案。

0 个答案:

没有答案