我正在尝试从我尝试的网址清理数据:
s = 'hello http://www.google.com I am william http://www.google.com'
from urlparse import urlparse
s.split()
clean = ' '.join([el for el in [i for i in s.split()] if not urlparse(el).scheme])
print(clean)
期望的输出:
hello I am william
但是这次我想使用相同的输出 而是一个正则表达式。
答案 0 :(得分:4)
使用替换
import re
s = 'hello http://www.google.com I am william http://www.google.com'
print(re.sub('http\S+\s?', '', s))
打印
hello I am william