python将html文件中的电子邮件地址提取到另一个文件中

时间:2015-11-28 08:11:31

标签: html python-3.4

基本上我要做的是以下内容:

我已经下载了一个HTML文件,并且在此文件中包含大量文本和大量不同的电子邮件地址。我想做的是只收集这个文件中的电子邮件地址,并使用Python 3.4输入1个excel文件。有人能帮忙吗?

HTML文件如下所示:

    <span style="display: none;"></span>
</td>
<td>Customer Care 
- <a href="?team_search=Team%20Resera" >Team Resera</a>
<br>(<a href="team.html?orgunit_id=50012581">team page &amp; map</a>)
</td>
<td>Berlin (BER2): Sesamestreet 11-12 </td>
<td><a href="mailto:blablabla.@blabla.com">blablabla.blabla@blabla.com</a><br />
(<a href="jabber://blablabla.blabla@blabla.com">jabber</a>)
(<a href="xmpp://blablabla.blabla@blabla.com">xmpp</a>)
</td>
<td>
        work: <a href="tel:72496532">72496532</a> (<a href="skype:72496532">Skype</a>)<br />
</td>

1 个答案:

答案 0 :(得分:1)

这应该让你开始,从它输出的示例html

import re
file = open('example.html')
line = file.readline()
while line:
    line = file.readline()
    if bool(re.search(r'([\w.])+@([\w.])+', line)):
        email = line.split('//',1)[-1]
        email = email.split('\"',1)[0]
        print email
file.close()
#outputs blablabla.blabla@blabla.com