我需要对html文件执行多个操作,例如删除特定标记或删除属性。我决定使用HTML Parser,一个java库: http://htmlparser.sourceforge.net/
首先,我想删除所有样式标记。我设法通过这样做得到一个包含所有样式标签的NodeList:
Parser parser = new Parser (url);
NodeList list = parser.parse (null);
NodeList styles = list.extractAllNodesThatMatch (new TagNameFilter ("STYLE"), true);
现在我不知道如何从整个节点列表中删除此样式属性。我是否需要获取整个列表?
之后,我希望能够删除标签内的所有属性,或者仅删除alt属性。有没有一种自动完成的方法?