我正在使用jericho来清理html并且效果很好。除了在一种情况下,我无法弄清楚。我想完全删除任何脚本和脚本内容。现在我正在删除脚本标记,但保留了实际的脚本内容。
所以目前我创建一个Source对象并执行fullSequentialParse。然后我创建一个OutputDocument并循环遍历每个标记。
当我找到“脚本”标签时,我只想用“”替换整个东西。
有什么想法吗?
TIA
答案 0 :(得分:1)
我不熟悉Jericho,但是它有能力在树上工作,非常类似于DOM树,所以你可以删除script
元素而不仅仅是标记的。 (如果你有一个巨大的HTML,这可能不是最佳的。)
如果没有,那么你可以采用SAX方式。请记住开始script
标记,当您到达结束标记时,您可以删除其中的所有内容。
答案 1 :(得分:-1)
简单有效的方法 -
A2A :)