问题:如何通过Java获取HTML格式的表格内容? 要求:必须是在线页面,而不是本地文件。
我想提取第一个主题的网址:
https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3
我尝试使用以下代码来获取第3页的第1个主题
String url_page3 = "https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3";
String key = "td.jive-table-cell-subject > a[href]";
Document doc = Jsoup.connect(url_page3).maxBodySize(0).timeout(0).get();
Element e = doc.select(key).first();
System.out.println(e.attr("abs:href");
它返回第1页的第一个主题(即使我将连接的网址更改为第4页,第5页,...)
但为什么会这样呢?我还有其他方法吗?
答案 0 :(得分:0)
原因很简单。散列标记对服务器无关紧要,因此它只发送第一页。我猜其他页面是由AJAX发出的,因此您需要检查网络流量以找到该网址。比你还可以阅读下一页。