使用区间树查找重叠区域

时间:2016-04-29 05:26:05

标签: python-2.7 tree fasta interval-tree

我有两个文件 档案1

  

CHR1:4847593-4847993   TGCCGGAGGGGTTTCGATGGAACTCGTAGCA

文件2

  

PBSN | X | 75083240 | 75098962 |   TTTACTACTTAGTAACACAGTAAGCTAAACAACCAGTGCCATGGTAGGCTTGAGTCAGCT   CTTTCAGGTTCATGTCCATCAAAGATCTACATCTCTCCCCTGGTAGCTTAAGAGAAGCCA   TGGTGGTTGGTATTTCCTACTGCCAGACAGCTGGTTGTTAAGTGAATATTTTGAAGTCC

文件1大约有8000多行,其下方有不同的标题和序列。 我首先想要匹配从file1到文件2的开始和结束坐标,或者看看它是否相互接近,如果是,则说出+ - 100然后匹配文件2中的序列,然后打印出文件2的头信息和匹配的序列。 我的方法使用区间树(在python我仍然试图得到它的挂起),存储坐标?
我尝试使用re.match,但它没有给我准确的结果。 任何提示都将受到高度赞赏。 感谢。

我的第一次尝试, 但是现在我已经打了另一个路障,所以对于我的第二个文件,如果我的开始和结束分别是5000和8000我想通过减去2000来改变这个,所以我的新开始和停止是3000和5000这里是我的代码

int main(){
  std::vector<Event> events;
  events.push_back(XEvent x);
  events.push_back(YEvent y);
  Event e = events[0];
  e.Action();
}

0 个答案:

没有答案