Question

我想获取此页面的html进行解析（点击链接以了解我想要的内容）。

这是我的代码请求此页面内容

    var https = require("https");

    var fs = require("fs");

var options = {
    hostname: "www.prizebond.net",
    port: 443,
    path: "/dlist.php?num=455",
    method: "GET"

};

var response = "";

var req = https.request(options, function (res) {
    res.setEncoding("UTF-8");
    console.log(res.statusCode);
    res.on("data", function (chunk) {
        response += chunk;
    });

    res.on("end", function () {

        fs.writeFile("750-bond.html", response, function (err) {

            if (err) {
                console.log(err.message);
            }
            console.log("File downloaded");

        });
        console.log("end");

    });
});

req.end();

现在的问题是，在我的750-bont.html文件中，我变得很奇怪了 “访问prizebond.net之前检查浏览器”的结果不是原创内容。这是我打开750-时得到的屏幕截图在浏览器中使用bond.html文件。

我做错了什么？我怎样才能获得此网页的原始内容？

Answer 1

您不能，除非您编写更复杂的内容，但您可能不应该这样做。

Cloudflare保护的目的是防止不幸的尝试。

您可以考虑使用公共API来访问您想要访问的任何内容，或者例如princebond.net提供的内容。

在使用https.request（options，callback）node.js访问模板和503状态代码之前检查浏览器

1 个答案: