我正在尝试从网站上抓取信息。该电子邮件在网络浏览器中可见,但是在使用Requests和BeautifulSoup之后,它显示[email protected]
。
如何获取原始文本?
下面是我的代码:
for company_des in des_soup1.find_all('div',class_='flex medium-text fnt-14 align-item-center pointer'):
print(company_des.text)
以下是屏幕截图:
HTML来源:
<div class="margin-left-5"><a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="cea6aba2a2a18ea2a7a8baa7bae0a7a0">[email protected]</a></div></div>
答案 0 :(得分:0)
基本上,您正在处理位于CloudFlare
之后的网站或其他防火墙保护服务。
由于您没有向我们提供有关该网站的更多信息,以便进行检查和验证。
所以我可以相信它是Email Address Obfuscation
,您可以在这里Click-Here上阅读它
关于解码电子邮件地址,所以这是一个解决方案。
def email(string):
r = int(string[:2], 16)
email = ''.join([chr(int(string[i:i+2], 16) ^ r)
for i in range(2, len(string), 2)])
return email
print(email('cea6aba2a2a18ea2a7a8baa7bae0a7a0'))
输出:
hello@liftit.in