电子邮件在网络抓取中受到保护。如何获得文字?

时间:2019-12-25 09:39:32

标签: html python-3.x web-scraping

我正在尝试从网站上抓取信息。该电子邮件在网络浏览器中可见,但是在使用Requests和BeautifulSoup之后,它显示[email protected]

如何获取原始文本?

下面是我的代码:

for company_des in des_soup1.find_all('div',class_='flex medium-text fnt-14 align-item-center pointer'):
    print(company_des.text)

以下是屏幕截图:

HTML来源:

<div class="margin-left-5"><a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="cea6aba2a2a18ea2a7a8baa7bae0a7a0">[email&#160;protected]</a></div></div>

1 个答案:

答案 0 :(得分:0)

基本上,您正在处理位于CloudFlare之后的网站或其他防火墙保护服务。

由于您没有向我们提供有关该网站的更多信息,以便进行检查和验证。

所以我可以相信它是Email Address Obfuscation,您可以在这里Click-Here上阅读它

关于解码电子邮件地址,所以这是一个解决方案。

def email(string):
    r = int(string[:2], 16)
    email = ''.join([chr(int(string[i:i+2], 16) ^ r)
                     for i in range(2, len(string), 2)])
    return email


print(email('cea6aba2a2a18ea2a7a8baa7bae0a7a0'))

输出:

hello@liftit.in