有人可以推荐Node.Js模块或Javascript库(不是基于可读性),可以用来从网页和RSS源中提取内容吗?
我找到了一个可以完成这项工作的好的PHP库 - http://fivefilters.org/content-only/ - 但是寻找一个可以做同样的Node.Js模块。
谢谢!
答案 0 :(得分:11)
我为此目的编写了一个名为'unfluff'的Node.js模块:
https://github.com/ageitgey/node-unfluff
希望这能解决你的问题。
Unfluff基于流行的“python-goose”和“goose”(Scala)页面提取库,以防您熟悉这些库。
答案 1 :(得分:2)
我会推荐cheerio。有几个很好的教程,包括这个:
答案 2 :(得分:1)
extract-main-text也可以很好地从HTML中提取内容。
node-unfluff
对我的日语(可能是CJK)内容不稳定。