我从不同的RSS / ATOM提要中获取数据,有时我收到的HTML数据包含HTML标签,但它们没有关闭标签或其他一些问题,它会搞砸页面布局/样式。
有些人有类名/ id冲突。有没有办法消毒它?
如果有人能指出我可靠的Javascript / Java实现。
答案 0 :(得分:1)
您可以尝试JTidy。
JTidy可以用作清理格式错误和错误的HTML的工具。
另一个选项是HTML Cleaner
在网上找到的HTML通常很脏,格式不正确,不适合进一步处理。对于任何严重消费此类文件,有必要首先清理混乱并将订单带到标签,属性和普通文本。对于给定的HTML文档,HtmlCleaner重新排序单个元素并生成格式良好的XML。默认情况下,它遵循大多数Web浏览器用于创建文档对象模型的类似规则。但是,用户可以为标签过滤和平衡提供自定义标签和规则集。
答案 1 :(得分:0)
我使用NekoHTML取得了巨大成功。它只是Apache解析器上的一个薄层,使其进入纠错模式,这是一个伟大的架构,因为每次Apache变得更好,Neko也是如此。并且没有大量的额外代码。