如何计算段落分隔的特定单词?

时间:2016-06-06 18:13:10

标签: python-3.x counter

所以我希望能够计算某个序列的次数,例如" AGCT"出现在一个充满字母的文件中。但是,我并不想要文档中的总金额,我希望它显示的次数是">"。

例如,如果文档包含:asdflkdaf agct alkjsdj agct lkdjf> asdlfkja agct > adjkhfhAGCTlksdjf agct > ...

它会告诉我: 2 1 1

自序列" AGCT"在第一个">"之前出现两次并且一次在下一次之后,再次在第三次之后,依此类推。

我不知道如何做到这一点,我们将不胜感激。

1 个答案:

答案 0 :(得分:0)

你可以使用字符串方法和Python的llist理解的组合,如下所示: 在段落中拆分文本,并为每个段落计算所需子字符串的出现次数。它实际上在Python中比在英语中更简洁:

>>> mytext = "asdflkdafagctalkjsdjagctlkdjf>asdlfkjaagct>adjkhfhAGCTlksdjfagct>"
>>> count = [para.count("agc")  for para in mytext.split(">")  ]
>>> count
[2, 1, 1, 0]