我正在处理一些基因组数据,我想将一个gtf外显子文件与床文件相交,但只返回最重叠的特征。交叉点有很多工具,但我没有找到一个可以提供我想要的输出的工具: 对于gtf文件中与床文件中的间隔重叠的每个基因,返回一个最大重叠的床间隔。
我认为来自Bioconductor的GenomicRanges :: findOverlaps是一个很好的解决方案,但我无法确定如何做到这一点。类似的东西:
output <- findOverlaps(query.gtf, subject.bed, minoverlap=10, ignore.strand=F)
其次是:
aggregate(output[transcript_id_field], list(#bp_field), max)
如果没有简单的解决方案,我准备写一个脚本从完整的交集文件中提取这些信息,但是把这个问题放在那里我希望有人可能有更有效的解决方案。