使用Node.js从网页上抓取文字

时间:2019-06-17 17:25:51

标签: javascript jquery node.js

我正在尝试从给定的网页上抓取文字。我正在使用Node.js,问题是尽管以下代码确实确实刮擦了文本,但它到处都是这些令人讨厌的空格,我不知道如何摆脱它。我尝试使用text().replace(/\s+/, " ").trim()之类的命令字符串,但似乎不起作用。

const request = require('request');
const cheerio = require('cheerio');


request('https://en.wikipedia.org/wiki/Main_Page', (error, response, html) =>{
  if (!error && response.statusCode ==200){
    const $ = cheerio.load(html);
    $('div').each((i, el)=>{
      const title = $(el).text().trim();
      // const title = $(el).text().replace(/\s+/, " ").trim();
      if(title.length > 0){
        console.log("line:", title);
      }
    })
  }
});

0 个答案:

没有答案