基本上我要做的是以下内容:
我已经下载了一个HTML文件,并且在此文件中包含大量文本和大量不同的电子邮件地址。我想做的是只收集这个文件中的电子邮件地址,并使用Python 3.4输入1个excel文件。有人能帮忙吗?
HTML文件如下所示:
<span style="display: none;"></span>
</td>
<td>Customer Care
- <a href="?team_search=Team%20Resera" >Team Resera</a>
<br>(<a href="team.html?orgunit_id=50012581">team page & map</a>)
</td>
<td>Berlin (BER2): Sesamestreet 11-12 </td>
<td><a href="mailto:blablabla.@blabla.com">blablabla.blabla@blabla.com</a><br />
(<a href="jabber://blablabla.blabla@blabla.com">jabber</a>)
(<a href="xmpp://blablabla.blabla@blabla.com">xmpp</a>)
</td>
<td>
work: <a href="tel:72496532">72496532</a> (<a href="skype:72496532">Skype</a>)<br />
</td>
答案 0 :(得分:1)
这应该让你开始,从它输出的示例html
import re
file = open('example.html')
line = file.readline()
while line:
line = file.readline()
if bool(re.search(r'([\w.])+@([\w.])+', line)):
email = line.split('//',1)[-1]
email = email.split('\"',1)[0]
print email
file.close()
#outputs blablabla.blabla@blabla.com