Question

我正在尝试制作一个简单的函数来捕获拼写错误，例如：

"Westminister15"
"Westminister15London"
"23Westminister15London"

固定后：

["Westminister", "15"]
["Westminister", "15", "London"]
["23", "Westminister", "15", "London"]

首次尝试：

 def fixate(query):
     digit_pattern = re.compile(r'\D')
     alpha_pattern = re.compile(r'\d')
     digits = filter(None, digit_pattern.split(query))
     alphas = filter(None, alpha_pattern.split(query))
     print digits
     print alphas

结果：

 fixate("Westminister15London")

 > ['15']
 > ['Westminister', 'London']

然而，我认为这可以更有效地完成，当我尝试这样的事情时，我仍然会得到不好的结果：

 fixate("Westminister15London England")

 > ['15']
 > ['Westminister', 'London England']

显然它应该单独列出London和England，但我觉得我的功能会得到过度修补，而且方法更简单

这个问题有点等同于this php问题

Answer 1

问题是Python的re.split()在零长度匹配上没有分裂。但是您可以使用re.findall()获得所需的结果：

>>> re.findall(r"[^\W\d_]+|\d+", "23Westminister15London")
['23', 'Westminister', '15', 'London']
>>> re.findall(r"[^\W\d_]+|\d+", "Westminister15London England")
['Westminister', '15', 'London', 'England']

\d+匹配任意数量的数字，[^\W\d_]+匹配任何字词。

Answer 2

如果您希望远离正则表达式，这是另一种方法，如果一个人不熟悉并且自己更改它，有时可能会很笨拙：

from itertools import groupby

def split_text(s):
    for k, g in groupby(s, str.isalpha):
        yield ''.join(g)

print(list(split_text("Westminister15")))
print(list(split_text("Westminister15London")))
print(list(split_text("23Westminister15London")))
print(list(split_text("Westminister15London England")))

返回：

['Westminister', '15']
['Westminister', '15', 'London']
['23', 'Westminister', '15', 'London']
['Westminister', '15', 'London', ' ', 'England']

如果需要，也可以轻松修改生成器，永远不会产生空白字符串。

Answer 3

您可以使用此正则表达式而不是您的正则表达式：

>>> import re
>>> regex = re.compile(r'(\d+|\s+)')
>>> regex.split('Westminister15')
['Westminister', '15', '']
>>> regex.split('Westminister15London England')
['Westminister', '15', 'London', ' ', 'England']
>>>

然后你必须过滤删除空字符串/仅限空白字符串的列表。

在python字符串中快速分割alpha和数字字符的方法

3 个答案: