在我看来,你应该使用jsoup。它是Java HTML解析器。其功能如下所列。
- 能够从网络获取网页
- 非常简单直接的API
- 用于tagert HTML元素的CSS选择器。
例如,您希望获得类foo
的DIV元素
Document doc = Jsoup.connect("http://website.com/").get();
Elements divs = doc.select("div.foo");
如果您使用HtmlCleaner的JDom序列化程序,则可以使用XPath表达式来定位div。