正在进行一些与向jsoup https://github.com/jhy/jsoup/pull/80添加xpath支持相关的工作。
答案 0 :(得分:11)
JSoup 尚不支持 XPath ,但您可以尝试XSoup - “Jsoup with XPath”。
以下是项目Github网站(link)引用的示例:
@Test
public void testSelect() {
String html = "<html><div><a href='https://github.com'>github.com</a></div>" +
"<table><tr><td>a</td><td>b</td></tr></table></html>";
Document document = Jsoup.parse(html);
String result = Xsoup.compile("//a/@href").evaluate(document).get();
Assert.assertEquals("https://github.com", result);
List<String> list = Xsoup.compile("//tr/td/text()").evaluate(document).list();
Assert.assertEquals("a", list.get(0));
Assert.assertEquals("b", list.get(1));
}
在那里,您还可以找到XSoup支持的XPath功能和表达式列表。
答案 1 :(得分:1)
尚未,但项目JsoupXpath已成功。例如,
String xpath="//div[@id='post_list']/div[./div/div/span[@class='article_view']/a/num()>1000]/div/h3/allText()";
String doc = "...";
JXDocument jxDocument = new JXDocument(doc);
List<Object> rs = jxDocument.sel(xpath);
for (Object o:rs){
if (o instanceof Element){
int index = ((Element) o).siblingIndex();
System.out.println(index);
}
System.out.println(o.toString());
}
答案 2 :(得分:0)
HtmlUnit支持XPath。我已经将其用于某些项目,并且效果很好。