尝试抓取反应网站时获取index.html内容

时间:2019-08-01 14:44:18

标签: javascript node.js reactjs web-scraping

当我尝试使用nodejs抓取reactjs网站时,我仅获得index.html文件的内容,而不是网站中使用的标签。 这是我尝试过的-

    const request = require("request");
    const cheerio = require("cheerio");

    const URL = "https://pydata-jal.netlify.com/";

    request(URL, (err, res, body) => {
      if (!err && res.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($.html());
      }
    });

我应该怎么做才能获得在React网站中使用过的全部标签。

告诉我可以取消hackernoon网站吗? (仅作为示例) 是否合法?

1 个答案:

答案 0 :(得分:0)

Cheerio仅解析已经呈现的HTML(例如:静态HTML) 为了获得React渲染,您应该依靠Puppeteer

这样的工具控制的无头浏览器