如何从在线完整的网页(仅限HTML)获取HTML表格内容?

时间:2014-02-09 06:42:22

标签: java html web-scraping html-table jsoup

问题:如何通过Java获取HTML格式的表格内容? 要求:必须是在线页面,而不是本地文件。

我想提取第一个主题的网址:

https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3

我尝试使用以下代码来获取第3页的第1个主题

String url_page3 = "https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3";
String key = "td.jive-table-cell-subject > a[href]";
Document doc = Jsoup.connect(url_page3).maxBodySize(0).timeout(0).get();
Element e = doc.select(key).first();
System.out.println(e.attr("abs:href");

它返回第1页的第一个主题(即使我将连接的网址更改为第4页,第5页,...)

但为什么会这样呢?我还有其他方法吗?

1 个答案:

答案 0 :(得分:0)

原因很简单。散列标记对服务器无关紧要,因此它只发送第一页。我猜其他页面是由AJAX发出的,因此您需要检查网络流量以找到该网址。比你还可以阅读下一页。