是否有推荐的JS库/框架从html提取文本?

时间:2019-02-14 05:01:59

标签: javascript node.js web-scraping

我们最近正在开发爬虫。一种功能是从抓取的HTML转换为文本。我们已经研究了一些Python解决方案,例如scrapy。但是,我们决定将编码语言从python转移到nodejs。是否有关于现有JS框架/库进行将HTML转换为文本的工作的建议? (例如:html-to-text

Ps。。如果我们想要定制的逻辑,那么包装本身可以有一些智能,可以删除广告/页脚/页眉,并且易于扩展。

非常感谢!

1 个答案:

答案 0 :(得分:0)

到目前为止,根据我的调查,似乎readability是一种解决方案。带有以下示例代码:

fs = require('fs')
var JSDOM = require('jsdom').JSDOM;
var Readability = require('./Readability');
html = fs.readFileSync("/Users/librah/tmp/b.html")
var doc = new JSDOM(html.toString(), { url: "https://www.bleepingcomputer.com/virus-removal/Remove-the-edematousliterature-chrome-extension", });
reader = new Readability(doc.window.document);
article = reader.parse()
console.log(article.textContent.trim())