Question

我正在尝试从网站上抓取信息。该电子邮件在网络浏览器中可见，但是在使用Requests和BeautifulSoup之后，它显示[email protected]。

如何获取原始文本？

下面是我的代码：

for company_des in des_soup1.find_all('div',class_='flex medium-text fnt-14 align-item-center pointer'):
    print(company_des.text)

以下是屏幕截图：

HTML来源：

<div class="margin-left-5"><a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="cea6aba2a2a18ea2a7a8baa7bae0a7a0">[email&#160;protected]</a></div></div>

Answer 1

基本上，您正在处理位于CloudFlare之后的网站或其他防火墙保护服务。

由于您没有向我们提供有关该网站的更多信息，以便进行检查和验证。

所以我可以相信它是Email Address Obfuscation，您可以在这里Click-Here上阅读它

关于解码电子邮件地址，所以这是一个解决方案。

def email(string):
    r = int(string[:2], 16)
    email = ''.join([chr(int(string[i:i+2], 16) ^ r)
                     for i in range(2, len(string), 2)])
    return email


print(email('cea6aba2a2a18ea2a7a8baa7bae0a7a0'))

输出：

hello@liftit.in

电子邮件在网络抓取中受到保护。如何获得文字？

1 个答案: