我正在尝试获取页面正文并在页面和子页面中搜索密钥。
function getALLPageText(url) {
var allText, urlBody, crawledUrlArray = [],
text;
console.log("Visiting page " + url);
request(url, { json: true }, function (error, response, body) {
crawledUrlArray = [];
if (error) {
console.log("Error: " + error);
} else if (response.statusCode === 200) {
// Parse the document body
urlBody = cheerio.load(body);
console.log("Page title: " + urlBody('title').text());
allText = urlBody('html > body').text();
crawledUrlArray = collectInternalLinks(urlBody);
crawledUrlArray.forEach(url => {
text = getONLYPageText(url);
if (text != -1) {
allText += text;
}
});
}
});
return allText;
}
我希望从主页面中获取所有文本,并且每个链接页面都以字符串形式发送,但我得到了未定义的内容。我调试了它,看到它没有进入请求函数。它看起来像URL属性是一个问题。没有错误,所以我不能前进。
感谢您的帮助。