Node.Js模块用于提取网页内容?

时间:2014-03-21 17:06:24

标签: javascript node.js text text-extraction rss-reader

有人可以推荐Node.Js模块或Javascript库(不是基于可读性),可以用来从网页和RSS源中提取内容吗?

我找到了一个可以完成这项工作的好的PHP库 - http://fivefilters.org/content-only/ - 但是寻找一个可以做同样的Node.Js模块。

谢谢!

3 个答案:

答案 0 :(得分:11)

我为此目的编写了一个名为'unfluff'的Node.js模块:

https://github.com/ageitgey/node-unfluff

希望这能解决你的问题。

Unfluff基于流行的“python-goose”和“goose”(Scala)页面提取库,以防您熟悉这些库。

答案 1 :(得分:2)

我会推荐cheerio。有几个很好的教程,包括这个:

http://maxogden.com/scraping-with-node.html

答案 2 :(得分:1)

extract-main-text也可以很好地从HTML中提取内容。 node-unfluff对我的日语(可能是CJK)内容不稳定。