我正在尝试找到从上到下解析HTML文档的最佳方法 为不同的东西替换某些标签组并创建更新的文件。 我更喜欢使用Java,VB.NET或PHP。
有几个类,比如JSoup,Jericho等,它们似乎可以替换特定的标签,但我要做的是替换/重写整个段。
例如,我可能正在寻找一个表,例如。
<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>
我想用
替换它<div class="header">A header</div><p>Some text. More text</p>
但是,希望保留HTML文档的其余部分。
有人这样做过吗?什么是最简单的方法?你能推荐一个好的HTML解析器吗?
我正在解析的文档是XHTML,所以我考虑使用java DOM或SAX工具,但是,我发现这些非常麻烦,并且想知道是否有更好的方法来实现它,还有一些现有的类。
非常感谢任何帮助。
答案 0 :(得分:0)
是的,你需要一个html解析器来轻松正确地解析html。你可以使用
jsoup是一个用于处理真实HTML的Java库。它提供 一个非常方便的API,用于提取和操作数据,使用 最好的DOM。
使用汤解析html就这么简单:
String html = "<table><tr><th>A header</th></tr><tr><td>Some text</td></tr><tr><td>More text</td></tr></table>";
Document doc = Jsoup.parse(html);