Question

我想提取HTML代码中包含的所有电子邮件地址。我写了这个非常简单的代码（我是一个超级基本的python编写器，我只是想学习）：

#coding=utf-8
import urllib
import re

html = urllib.urlopen('http://giacomobonvini.com').read()

r = re.compile(r'(\b[\w.]+@+[\w.]+.+[\w.]\b)')
results = r.findall(html)

emails = ""
for x in results:
   emails += str(x) + "\n"

print emails

问题在于，即使代码有效，电子邮件也会以这种方式打印出来：

“giacomo.bonvini@gmail.com＆lt; / span”

“giacomo.bonvini@gmail.com＆lt; br”

我不排除“＆lt; / span”和“＆lt; br”。

你知道吗？谢谢贾科莫

Answer 1

r'(\b[\w.]+@+[\w.]+.+[\w.]\b)'

问题可能是.+组合，它匹配任何东西。也许你的意思是匹配一个点？如果是，请使用例如[.]

从批量文本中提取电子邮件 - 错误

1 个答案: