使用Python从cloudflare站点获取信息?

时间:2018-02-20 05:51:27

标签: python python-3.x web-crawler cloudflare

我在一家营销公司工作,我需要从网页上编辑和排序几百封电子邮件。我有一些python知识,所以我经常制作一个简单的抓取工具,让生活更轻松,但是cloudflare阻止了源代码中的电子邮件。

我该如何绕过这个?显然,使用这样的自动化工具比手动复制和粘贴所有电子邮件要快得多。以下是我用以下方法测试的程序:

import requests
import urllib
from bs4 import BeautifulSoup

website = ""
r = requests.get(website)
soup = BeautifulSoup(r.text,'html.parser')

numb = 799

while numb < 800:
    numb += 1
    print(r.status_code)
    print(soup.prettify())

在源代码中,这将取代电子邮件:

<a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="">[email;protected]</a> 

有没有办法在网页上自动复制和粘贴某一行?我已经在常规浏览器中检查了源代码,它显示了相同的内容。

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

我知道它是一个旧线程,但是此功能将解码电子邮件字符串:

RewriteBase /
RewriteCond %{REQUEST_URI} !^/en/
RewriteCond %{HTTP_HOST} ^(www\.)?localhost:8080\.
RewriteRule ^(.*)$ /en/$1 [L]