java - 清理HTML数据

清理HTML数据

时间：2010-09-13 01:17:00

标签： java javascript feeds security

我从不同的RSS / ATOM提要中获取数据，有时我收到的HTML数据包含HTML标签，但它们没有关闭标签或其他一些问题，它会搞砸页面布局/样式。

有些人有类名/ id冲突。有没有办法消毒它？

如果有人能指出我可靠的Javascript / Java实现。

2 个答案:

答案 0 :(得分：1)

您可以尝试JTidy。

JTidy可以用作清理格式错误和错误的HTML的工具。

另一个选项是HTML Cleaner

在网上找到的HTML通常很脏，格式不正确，不适合进一步处理。对于任何严重消费此类文件，有必要首先清理混乱并将订单带到标签，属性和普通文本。对于给定的HTML文档，HtmlCleaner重新排序单个元素并生成格式良好的XML。默认情况下，它遵循大多数Web浏览器用于创建文档对象模型的类似规则。但是，用户可以为标签过滤和平衡提供自定义标签和规则集。

答案 1 :(得分：0)

我使用NekoHTML取得了巨大成功。它只是Apache解析器上的一个薄层，使其进入纠错模式，这是一个伟大的架构，因为每次Apache变得更好，Neko也是如此。并且没有大量的额外代码。