我必须匹配字符串中出现的所有子字符串并返回所有匹配起始位置:
输入数据示例:
2 4
AC
TGGT
4 25
CATA
TCATATGCAAATAGCTGCATACCGA
0 0 ## to end the file
我想在不使用数字的情况下这样做,因为它似乎没有必要;(但它们仍将在输入文件中)
我不知道这段代码究竟出了什么问题,但它会在输出文件上保持打印(无限循环)打印0。
#!/usr/bin/env python
import sys
from operator import itemgetter
def find_all(a_str, sub):
start = 0
while True:
start = a_str.find(sub, start)
if start == -1: return
yield start
start += len(sub)
if __name__ == '__main__':
testnum=0
input_file = open(sys.argv[1])
#input_lines=input_file.split("\n")
output_file = open(sys.argv[2],"w")
while True:
testnum+=1
values_raw = input_file.readline()
#values_raw=raw_input() ##rubish
values=values_raw.split()
flag=0
for element in values:
if element == "0":
break
string1=str(input_file.readline())
string2=str(input_file.readline())
lista = find_all(string2,string1)
output_file.write("\nTeste "+str(testnum)+"\nocorrencia direta: ")
for item in lista:
output_file.write(str(item)+" ")
#reversed search
string1=string1[::-1]
lista = find_all(string2,string1)
output_file.write("\nTeste "+str(testnum)+"\nocorrencia inversa complementar: ")
for item in lista:
output_file.write(str(item)+" ")
if ((len(string1)==0)):
break
我在粘贴代码时意外删除了string1和string2行//我匹配原始和反向匹配,但由于代码几乎相同,我认为我也不应该发布它。
答案 0 :(得分:1)
您可以使用regex
:
>>> import re
>>> pat = 'CATA'
>>> strs = 'TCATATGCAAATAGCTGCATACCGA'
>>> [m.start() for m in re.finditer(pat, strs)]
[1, 17]