使用Puppeteer爬行受保护的站点

时间:2019-01-28 21:01:20

标签: node.js web-scraping web-crawler puppeteer

我正在尝试抓取某些网站,例如http://www.faintinggoatdc.com/food/dinner-menu/和操纵up的人,但我仍然被封锁。并非每次都如此,但在大多数情况下,而且肯定是在一秒钟后,即使我自己在Chromium中手动单击它也是如此。这是我收到的带有StackPath徽标的错误消息:

  

“抱歉,您已被屏蔽。该网站正在使用安全保护   服务以保护自己免受在线攻击。您执行了一项操作   触发了该服务并阻止了您的请求。”

这是我的代码,以及有问题的网址。有什么想法吗?

async function getPuppeteer(url) {
    console.log("Launching Puppeteer for " + url)
    let  browser = await puppeteer.launch({ headless: false, slowMo: 250, width: 1280, height:900})
    const page = await browser.newPage();

    page.setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36")
    let resp = await page.goto(url) 
    let content = await page.content()
    //browser.close()
}
await getPuppeteer("http://www.faintinggoatdc.com/food/dinner-menu/")

不用说请求也不起作用。

此外,尽管我将宽度指定为1280,但它在785px的帧中将其打开。

0 个答案:

没有答案