Question

我正在尝试网上抓取owler.com。我已经有了公司的清单，而我想要获得的只是它们的估计收入，员工人数和总部所在地。现在，我不打算发送垃圾邮件到网站或其他任何内容，我不介意我花了一个小时或更长时间来获取请求较慢的所有信息，我只是不想手动复制和粘贴，因为非常乏味。

我没有发送任何请求，我只是发出了一个请求进行测试，最终我刮了一个“检测到异常”页面，上面写着“您是超级用户，正在以超级人的速度浏览该网站。”这意味着我实际上被拒绝了。除非我缺少任何东西，否则我无法在“ get（）”函数内的任何地方合并睡眠，因为它“按原样”出现。我已经尝试使用urllib库来替代“请求”。但是，当我尝试使用此库时，会返回“ HTTP错误405：不允许”

import bs4
from bs4 import BeautifulSoup as bs
from requests import get
import time

company = "Rockstar Games"
company = company.lower()

my_url1 = 'https://www.owler.com/company/'+ company.replace(" ", "")

time.sleep(1)
response = get(my_url1)
print("Opening "+my_url1)
print(response.text)

#This is all my code, I used nothing else and I didn't use any loops or spammed anything, I only accessed it once.

我希望返回页面，以便可以访问元素并在其中获取数据，但我却获得了一个验证码页面。就像我说的那样，我的目的不是要向他们的网站发送垃圾邮件，而只是自动化通常需要我2天才能完成的工作，并且如果我必须用手做的话，将会杀死很多脑细胞。

如何减慢网页的request.get（）函数？

0 个答案: