Java Parser HTML使用普通的String方法?

时间:2012-02-22 18:54:22

标签: java html string parsing document

这是个好主意吗?好吧,我使用过像JSoup这样的其他第三方库,但效果很好,但是对于这个项目来说,它是不同的。当你只想从中获取一个项目时,加载和解析整个文档是否值得?一些html页面也很简单,所以我也可以使用String方法。原因是因为内存将成为问题,并且加载文档也需要一些时间。在解析XML时,我总是使用SAX Parser,因为它不会将其加载到内存中并且速度很快。我可以在html文档上使用相同的东西,还是已经有这样的东西?因此,如果有一个非DOM HTML轻量级解析器,那也很棒。

1 个答案:

答案 0 :(得分:1)

如果HTML符合XML(即它是XHTML),那么您可以使用标准的SAX解析器。在这里,您可以找到Java中的HTML解析器列表,供您选择:http://java-source.net/open-source/html-parsers。 HotSax可能会处理您的所有用例。