Question

我正在尝试为我的应用程序抓取网页。问题是我要抓取的网页不是HTML。它具有纯文本页面。如何使用Node JS X射线抓取此类页面。我要抓取的页面的PRE标签中包含内容。

尝试了以下3个代码，但结果却空了

x(url, { main: "",  })

x(url, { main: "body@html", })

x(url, { main: "@text",  })

更新解决方案：

我试图抓取的页面是ASCII页面，因此我能够使用cheerio nodejs找到解决方案

var request = require('request');
var cheerio = require('cheerio');
request(URL, function (error, response, html) {
    if (!error && response.statusCode == 200) {
       var $ = cheerio.load(html);
       var a = $(this);
       a.text();             
    }
});

a.text（）->这样就给了我整个页面内容，然后我执行了字符串操作以刮擦所需的信息

https://www.npmjs.com/package/cheerio

如何使用X射线刮取非HTML页面

0 个答案: