我正在寻找一个正则表达式,它以字母,数字或下划线('_')开头。它只能在单词之间包含点('。'),而不是在结尾处,并且应该删除所有其他特殊字符。 e.g
paper
应该给出
WARC,_Target,URI,http,www.allchocolate.com,health,basics
任何形式的帮助都将受到赞赏。
答案 0 :(得分:1)
你在这里:
from re import findall
print findall(r'\w[\w.]*\w', 'WARC-_Target-URI: http://www.allchocolate.com/health/basics/')
[' WARC',' _Target',' URI',' http',' www.allchocolate.com&# 39;,'健康','基础知识']
与其他解决方案不同,这适用于任何情况(不仅仅是您发布的示例)。
答案 1 :(得分:0)
import re
test = "WARC-_Target-URI: http://www.allchocolate.com/health/basics/"
print re.findall(r"[\w'.]+", test)
答案 2 :(得分:0)
s = 'WARC-_Target-URI: http://www.allchocolate.com/health/basics/'
parts = [x for x in re.split(r'[/:-]',s) if x]
print(parts)
['WARC', '_Target', 'URI', ' http', 'www.allchocolate.com', 'health', 'basics']