使用Jsoup在div中提取表数据

时间:2015-06-26 07:52:26

标签: java html web-scraping jsoup

我已尝试过各种方法来获取div标签的表数据但不成功。当我做一个视图源时,我能够看到表的值。但是,当我运行提取值时,表甚至无法识别。该表位于此div标签内。​​

<div xmlns:saxon="http://saxon.sf.net/" xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:xdt="http://www.w3.org/2005/xpath-datatypes" xmlns:fn="http://www.w3.org/2005/xpath-functions" xmlns:fo="http://www.w3.org/1999/XSL/Format">

我试过的方法。

Element table = doc.select("table").first();
Elements rows = table.select("tr");
for (int i = 1; i < rows.size(); i++) { 
    Element row = rows.get(i);
    Elements tds = row.select("td");
    System.out.println(tds.get(0).text() + ":" + tds.get(1).text());
}

我试过按类,标签等获取表格。这与div标签有什么关系吗?

1 个答案:

答案 0 :(得分:0)

Duffydake提供的解决方案:

  

您几乎可以使用任何语言执行此操作。有两个解决方案,使用“phantomjs”之类的东西来获取“真实”页面(使用javascript解释)或使用此URL

和OP回复:

  

谢谢..我需要检查phantomjs ..但是使用其他网址我能够提取值。只需要现在格式化。