所以我希望能够计算某个序列的次数,例如" AGCT"出现在一个充满字母的文件中。但是,我并不想要文档中的总金额,我希望它显示的次数是">"。
例如,如果文档包含:asdflkdaf agct alkjsdj agct lkdjf> asdlfkja agct > adjkhfhAGCTlksdjf agct > ...
它会告诉我: 2 1 1
自序列" AGCT"在第一个">"之前出现两次并且一次在下一次之后,再次在第三次之后,依此类推。
我不知道如何做到这一点,我们将不胜感激。
答案 0 :(得分:0)
你可以使用字符串方法和Python的llist理解的组合,如下所示: 在段落中拆分文本,并为每个段落计算所需子字符串的出现次数。它实际上在Python中比在英语中更简洁:
>>> mytext = "asdflkdafagctalkjsdjagctlkdjf>asdlfkjaagct>adjkhfhAGCTlksdjfagct>"
>>> count = [para.count("agc") for para in mytext.split(">") ]
>>> count
[2, 1, 1, 0]