简单的正则表达式Python

时间:2015-11-30 00:57:00

标签: python regex

我正在从文件中读取一行,并希望使用re.split分割由非字母数字ascii字符或break语句分隔的单词,但我无法确定如何创建正确的模式。以下代码产生:

split = re.split(r'(<br>)|(\W+)', 'I code<br>A project.')
split = ['', None, 'I', '', None, 'code', '', None, '<', '', None, 'br',
         '',None, '>', '', None, 'A', '', None, 'project.']

我相信我能够识别出上述模式的中断语句或非中心字符,但显然它是不正确的。我无法理解正则表达式,任何帮助修复这一点将不胜感激。正确拆分后,我希望它看起来如下:

split = ['I', 'code', 'A', 'project']

1 个答案:

答案 0 :(得分:1)

您不需要组语法()

>>> re.split(r'<br>|\W+', 'I code<br>A    project.')
['I', 'code', 'A', 'project', '']