标签: html html-parsing
我需要删除/忽略HTML中的重复属性。我使用xerces2 html解析器。它不解析标签中具有重复属性的HTML文件。
示例:
<img src="url" width="100" height="200" width="123">
答案 0 :(得分:0)
你可以尝试使用cyber neko html解析器来解析你的html文件。 http://sourceforge.net/projects/nekohtml/