使用正则表达式(或其他python模块)来比较文本/字符?

时间:2012-08-12 18:16:07

标签: python regex string-matching

假设我的程序收到一个输入,例如一串具有任何类型字符的字符。例如,'Bob's Bagel Shop'。然后它得到另一个字符串,上面写着'Fred's Bagel Store'。如何在python中使用正则表达式或其他模块来比较这些并让我的程序告诉我,如果字符串中的任何地方至少有5个(或任何我想要的数字),但所有的顺序相同,例如“Bagel”这个词?

感谢。

3 个答案:

答案 0 :(得分:13)

有一个Python标准库类difflib.SequenceMatcher,它将有助于解决您的问题。这是一个代码示例:

from difflib import SequenceMatcher

s1 = "Bob's Bagel Shop"
s2 = "Bill's Bagel Shop"

matcher = SequenceMatcher(a=s1, b=s2)
match = matcher.find_longest_match(0, len(s1), 0, len(s2))

结果:

Match(a=3, b=4, size=13)  # value that 'match' variable holds

结果显示两个字符串都有相等的子字符串,长度为13个字符(从第一个字符串中的第3个字符开始,第二个字符串中第4个字符串开始)。

您可以使用此匹配结果对象将其字段作为值:

match.size  # 13
match.a     # 3
match.b     # 4

答案 1 :(得分:1)

您可以使用itetools.combinations,然后使用intersection集来查找两个字符串中的匹配字符:

from itertools import combinations
str1="Bob's Bagel Shop"
str2="Fred's Bagel Store"

def combi(strs):
    chars=''.join(strs.split())
    lis=[]
    for x in range(1,len(chars)):
        for y in combinations(chars,x):
            if ''.join(y) in chars:
                lis.append(''.join(y))
    return lis           


lis1=combi(str1)
lis2=combi(str2)
print max(set(lis1).intersection(set(lis2)),key=len)  

<强>输出:

'sBagelS

答案 2 :(得分:0)