Question

我正在尝试找到从上到下解析HTML文档的最佳方法为不同的东西替换某些标签组并创建更新的文件。我更喜欢使用Java，VB.NET或PHP。

有几个类，比如JSoup，Jericho等，它们似乎可以替换特定的标签，但我要做的是替换/重写整个段。

例如，我可能正在寻找一个表，例如。

<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>

我想用

替换它

<div class="header">A header</div><p>Some text. More text</p>

但是，希望保留HTML文档的其余部分。

有人这样做过吗？什么是最简单的方法？你能推荐一个好的HTML解析器吗？

我正在解析的文档是XHTML，所以我考虑使用java DOM或SAX工具，但是，我发现这些非常麻烦，并且想知道是否有更好的方法来实现它，还有一些现有的类。

非常感谢任何帮助。

Answer 1

是的，你需要一个html解析器来轻松正确地解析html。你可以使用

jsoup是一个用于处理真实HTML的Java库。它提供一个非常方便的API，用于提取和操作数据，使用最好的DOM。

使用汤解析html就这么简单：

String html = "<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>";
Document doc = Jsoup.parse(html);