我想提取HTML代码中包含的所有电子邮件地址。我写了这个非常简单的代码(我是一个超级基本的python编写器,我只是想学习):
#coding=utf-8
import urllib
import re
html = urllib.urlopen('http://giacomobonvini.com').read()
r = re.compile(r'(\b[\w.]+@+[\w.]+.+[\w.]\b)')
results = r.findall(html)
emails = ""
for x in results:
emails += str(x) + "\n"
print emails
问题在于,即使代码有效,电子邮件也会以这种方式打印出来:
“giacomo.bonvini@gmail.com< / span”
“giacomo.bonvini@gmail.com< br”
我不排除“< / span”和“< br”。
你知道吗? 谢谢 贾科莫答案 0 :(得分:0)
r'(\b[\w.]+@+[\w.]+.+[\w.]\b)'
问题可能是.+
组合,它匹配任何东西。也许你的意思是匹配一个点?如果是,请使用例如[.]