如何从木偶戏中刮掉JSON?

时间:2018-01-29 22:54:04

标签: node.js scrape puppeteer

我登录了一个网站,它提供了一个浏览器cookie。

我转到一个URL,这是一个json响应。

输入await page.goto('blahblahblah.json');后如何刮取页面 ?

2 个答案:

答案 0 :(得分:6)

另一种不会给你intermittent issues的方法是在身体可用时对身体进行评估并将其作为JSON返回,例如。

const puppeteer = require('puppeteer'); 

async function run() {

    const browser = await puppeteer.launch( {
        headless: false  //change to true in prod!
    }); 

    const page = await browser.newPage(); 

    await page.goto('https://raw.githubusercontent.com/GoogleChrome/puppeteer/master/package.json');

    var content = await page.content(); 

    innerText = await page.evaluate(() =>  {
        return JSON.parse(document.querySelector("body").innerText); 
    }); 

    console.log("innerText now contains the JSON");
    console.log(innerText);

    //I will leave this as an excercise for you to
    //  write out to FS...

    await browser.close(); 

};

run(); 

答案 1 :(得分:-1)

您可以截取网络响应,如下所示:

const objectX = object as string