从批量文本中提取电子邮件 - 错误

时间:2017-02-19 11:39:28

标签: python html extract bulk

我想提取HTML代码中包含的所有电子邮件地址。我写了这个非常简单的代码(我是一个超级基本的python编写器,我只是想学习):

#coding=utf-8
import urllib
import re

html = urllib.urlopen('http://giacomobonvini.com').read()

r = re.compile(r'(\b[\w.]+@+[\w.]+.+[\w.]\b)')
results = r.findall(html)

emails = ""
for x in results:
   emails += str(x) + "\n"

print emails    

问题在于,即使代码有效,电子邮件也会以这种方式打印出来:

“giacomo.bonvini@gmail.com< / span”

“giacomo.bonvini@gmail.com< br”

我不排除“< / span”和“< br”。

你知道吗? 谢谢 贾科莫

1 个答案:

答案 0 :(得分:0)

r'(\b[\w.]+@+[\w.]+.+[\w.]\b)'

问题可能是.+组合,它匹配任何东西。也许你的意思是匹配一个点?如果是,请使用例如[.]