标签: java html string strip
如何使用Java从“alt”和“src”除去字符串中HTML标记的所有属性?
进一步..如何从字符串中的所有“src”属性中获取内容?
:)
答案 0 :(得分:3)
你可以:
无论您做什么, 都不要尝试使用正则表达式。
答案 1 :(得分:0)
好的,以某种方式解决了这个问题。
使用HTMLCleaner库将输入数据解析为有效格式。
然后我使用DOM解析器迭代所有内容,并删除所有不允许的标记和属性。
(和一些小丑陋的黑客;))
这是一项很多工作。