正则表达式会给某些单词python

时间:2015-10-11 14:21:41

标签: python regex split

我正在寻找一个正则表达式,它以字母,数字或下划线('_')开头。它只能在单词之间包含点('。'),而不是在结尾处,并且应该删除所有其他特殊字符。 e.g

paper

应该给出

WARC,_Target,URI,http,www.allchocolate.com,health,basics

任何形式的帮助都将受到赞赏。

3 个答案:

答案 0 :(得分:1)

你在这里:

from re import findall

print findall(r'\w[\w.]*\w', 'WARC-_Target-URI: http://www.allchocolate.com/health/basics/')
  

[' WARC',' _Target',' URI',' http',' www.allchocolate.com&# 39;,'健康','基础知识']

与其他解决方案不同,这适用于任何情况(不仅仅是您发布的示例)。

答案 1 :(得分:0)

import re
test = "WARC-_Target-URI: http://www.allchocolate.com/health/basics/"
print re.findall(r"[\w'.]+", test)

答案 2 :(得分:0)

s = 'WARC-_Target-URI: http://www.allchocolate.com/health/basics/'

parts = [x for x in re.split(r'[/:-]',s) if x]

print(parts)

['WARC', '_Target', 'URI', ' http', 'www.allchocolate.com', 'health', 'basics']