我正在尝试网上抓取owler.com。我已经有了公司的清单,而我想要获得的只是它们的估计收入,员工人数和总部所在地。现在,我不打算发送垃圾邮件到网站或其他任何内容,我不介意我花了一个小时或更长时间来获取请求较慢的所有信息,我只是不想手动复制和粘贴,因为非常乏味。
我没有发送任何请求,我只是发出了一个请求进行测试,最终我刮了一个“检测到异常”页面,上面写着“您是超级用户,正在以超级人的速度浏览该网站。”这意味着我实际上被拒绝了。除非我缺少任何东西,否则我无法在“ get()”函数内的任何地方合并睡眠,因为它“按原样”出现。我已经尝试使用urllib库来替代“请求”。但是,当我尝试使用此库时,会返回“ HTTP错误405:不允许”
import bs4
from bs4 import BeautifulSoup as bs
from requests import get
import time
company = "Rockstar Games"
company = company.lower()
my_url1 = 'https://www.owler.com/company/'+ company.replace(" ", "")
time.sleep(1)
response = get(my_url1)
print("Opening "+my_url1)
print(response.text)
#This is all my code, I used nothing else and I didn't use any loops or spammed anything, I only accessed it once.
我希望返回页面,以便可以访问元素并在其中获取数据,但我却获得了一个验证码页面。就像我说的那样,我的目的不是要向他们的网站发送垃圾邮件,而只是自动化通常需要我2天才能完成的工作,并且如果我必须用手做的话,将会杀死很多脑细胞。