解析HTML文档并替换整个标记段的最佳方法

时间:2014-10-03 01:25:41

标签: java html vb.net parsing replace

我正在尝试找到从上到下解析HTML文档的最佳方法 为不同的东西替换某些标签组并创建更新的文件。 我更喜欢使用Java,VB.NET或PHP。

有几个类,比如JSoup,Jericho等,它们似乎可以替换特定的标签,但我要做的是替换/重写整个段。

例如,我可能正在寻找一个表,例如。

<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>

我想用

替换它
<div class="header">A header</div><p>Some text. More text</p>

但是,希望保留HTML文档的其余部分。

有人这样做过吗?什么是最简单的方法?你能推荐一个好的HTML解析器吗?

我正在解析的文档是XHTML,所以我考虑使用java DOM或SAX工具,但是,我发现这些非常麻烦,并且想知道是否有更好的方法来实现它,还有一些现有的类。

非常感谢任何帮助。

1 个答案:

答案 0 :(得分:0)

是的,你需要一个html解析器来轻松正确地解析html。你可以使用

jsoup: Java HTML Parser

  

jsoup是一个用于处理真实HTML的Java库。它提供   一个非常方便的API,用于提取和操作数据,使用   最好的DOM。

使用汤解析html就这么简单:

String html = "<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>";
Document doc = Jsoup.parse(html);