Question

我正在从文件中读取一行，并希望使用re.split分割由非字母数字ascii字符或break语句分隔的单词，但我无法确定如何创建正确的模式。以下代码产生：

split = re.split(r'(<br>)|(\W+)', 'I code<br>A project.')
split = ['', None, 'I', '', None, 'code', '', None, '<', '', None, 'br',
         '',None, '>', '', None, 'A', '', None, 'project.']

我相信我能够识别出上述模式的中断语句或非中心字符，但显然它是不正确的。我无法理解正则表达式，任何帮助修复这一点将不胜感激。正确拆分后，我希望它看起来如下：

split = ['I', 'code', 'A', 'project']

Answer 1

您不需要组语法()：

>>> re.split(r'<br>|\W+', 'I code<br>A    project.')
['I', 'code', 'A', 'project', '']

简单的正则表达式Python

1 个答案: