这是我写的一个函数,它将需要一个很长的文本文件。例如包含整个教科书的文本文件。它会找到任何重复的子串并输出最大的字符串。现在它不起作用,它只输出我放入的字符串
例如,如果有一个错误,其中重复整个句子。它会输出那句话;鉴于它是整个文件中最大的。如果有一个拼写错误,整个段落被输入两次,它将输出段落。
此算法获取第一个字符,查找任何匹配项,如果匹配,如果长度最大,则存储子字符串。然后它需要前2个字符并重复。然后是前3个字符。等等。然后它将重新开始,除了从第2个字符而不是第1个字符开始。然后从第3个角色开始,一直到后面。
def largest_substring(string):
length = 0
x,y=0,0
for y in range(len(string)): #start at string[0, ]
for x in range(len(string)): #start at string[ ,0]
substring = string[y:x] #substring is [0,0] first, then [0,1], then [0.2]... then [1,1] then [1,2] then [1,3]... then [2,2] then [2,3]... etc.
if substring in string: #if substring found and length is longest so far, save the substring and proceed.
if len(substring) > length:
match = substring
length = len(substring)
答案 0 :(得分:4)
我认为你的逻辑在这里是有缺陷的,因为它会一直返回整个字符串,因为它检查子字符串是否在整个字符串中,这总是正确的,因此语句if substring in string
将始终为真。相反,您需要查找子字符串是否在整个字符串中出现多次,然后更新计数。
以下是解决它的强力算法示例: -
import re
def largest_substring(string):
length = 0
x=0
y=0
for y in range(len(string)):
for x in range(len(string)):
substring = string[y:x]
if len(list(re.finditer(substring,string))) > 1 and len(substring) > length:
match = substring
length = len(substring)
return match
print largest_substring("this is repeated is repeated is repeated")