我正在尝试为我的应用程序抓取网页。问题是我要抓取的网页不是HTML。它具有纯文本页面。如何使用Node JS X射线抓取此类页面。我要抓取的页面的PRE标签中包含内容。
尝试了以下3个代码,但结果却空了
x(url, { main: "", })
x(url, { main: "body@html", })
x(url, { main: "@text", })
更新解决方案:
我试图抓取的页面是ASCII页面,因此我能够使用cheerio nodejs找到解决方案
var request = require('request');
var cheerio = require('cheerio');
request(URL, function (error, response, html) {
if (!error && response.statusCode == 200) {
var $ = cheerio.load(html);
var a = $(this);
a.text();
}
});
a.text()->这样就给了我整个页面内容,然后我执行了字符串操作以刮擦所需的信息