如何在Java中解析和修改HTML文件

时间:2010-10-11 13:01:03

标签: java html html-parsing

我正在做一个项目,其中我需要读取HTML文件并识别特定标签,修改标签的内容以及创建新的HTML文件。是否有一个解析HTML标记的库,并且能够将标记写回新文件?

4 个答案:

答案 0 :(得分:6)

查看http://jsoup.org,它有一个友好的dom-like API,用于简单的任务,你不需要解析html。

答案 1 :(得分:2)

HTML解析器太多了。您可以使用JTidyNekoHTML或查看TagSoup

我通常更喜欢使用标准的Java XML Parsers解析XHTML,但是对于任何类型的HTML都不能这样做。

答案 2 :(得分:2)


如果你想修改网页并返回修改后的内容,我认为最好的方法是使用XSL转换 http://en.wikipedia.org/wiki/XSLT

答案 3 :(得分:0)

查看http://java-source.net/open-source/html-parsers以获取将html文件解析为可以操作的java对象的java库列表。

如果您正在使用的html文件格式正确(xhtml),那么您还可以在java中使用XML库来查找特定标记并对其进行修改。 IO本身应由您正在使用的特定库处理。

如果您选择手动解析字符串,则可以使用正则表达式查找特定标记,并使用java io库写入文件并创建新的html文档。但是这种方法可以重新发明轮子,因为你必须管理标签的打开和关闭,所有这些都由预先存在的库处理。