我们需要一个DOM解析器,它能够运行一堆模式并存储结果。为此我们正在寻找开放的库,我们可以开始,
答案 0 :(得分:3)
好的,我会说:
您可以使用jQuery。
ups :
缩小:
以下是一些jquery操作的示例:
// select all the iframe elements with the class advertisement
// that have the word "porn" in their src attribute
$('iframe.advertisement[src*=porn]')
// filter the ones that contains the word "poney" in their title
// with the help of a regex
.filter(function(){
return /poney/gi.test((this.title || this.document.title).test()));
})
// and remove them
.remove()
// return to the whole match
.end()
// filter them again, this time
// affect only the big ones
.filter(function(){
return $(this).width() > 100 && $(this).height() > 100;
})
// replace them with some html markup
.replaceWith('<img src="harmless_bunnies_and_kitties.jpg" />');
答案 1 :(得分:0)
node-htmlparser可以解析HTML,提供带有许多utils的DOM(也支持按函数过滤),并且可以在任何上下文中运行(甚至在WebWorkers中)。
我forked一段时间后,改进它以获得更好的速度并获得一些疯狂的结果(读取:甚至比原生的libexpat绑定更快)。
尽管如此,我建议您使用原始版本,因为它支持开箱即用的浏览器(我的fork可以使用browserify在浏览器中运行,这会增加一些开销)。