如何在JAVA中除去“src”和“alt”之外的HTML属性

时间:2009-02-18 11:03:17

标签: java html string strip

如何使用Java从“alt”和“src”除去字符串中HTML标记的所有属性?

进一步..如何从字符串中的所有“src”属性中获取内容?

:)

2 个答案:

答案 0 :(得分:3)

你可以:

  • 实施SAX parser;
  • 使用DOM parser构建一个文档,然后将其修剪并修剪,然后转换回HTML;或
  • 在XSLT中使用identity transform(假设您的HTML采用XHTML格式,或者可以转换为JTidy),并附加一些其他情况以删除您不需要的属性。< / LI>

无论您做什么, 都不要尝试使用正则表达式。

答案 1 :(得分:0)

好的,以某种方式解决了这个问题。

使用HTMLCleaner库将输入数据解析为有效格式。

然后我使用DOM解析器迭代所有内容,并删除所有不允许的标记和属性。

(和一些小丑陋的黑客;))

这是一项很多工作。