我正在尝试从给定的网页上抓取文字。我正在使用Node.js,问题是尽管以下代码确实确实刮擦了文本,但它到处都是这些令人讨厌的空格,我不知道如何摆脱它。我尝试使用text().replace(/\s+/, " ").trim()
之类的命令字符串,但似乎不起作用。
const request = require('request');
const cheerio = require('cheerio');
request('https://en.wikipedia.org/wiki/Main_Page', (error, response, html) =>{
if (!error && response.statusCode ==200){
const $ = cheerio.load(html);
$('div').each((i, el)=>{
const title = $(el).text().trim();
// const title = $(el).text().replace(/\s+/, " ").trim();
if(title.length > 0){
console.log("line:", title);
}
})
}
});