Question

问题：如何通过Java获取HTML格式的表格内容？ 要求：必须是在线页面，而不是本地文件。

我想提取第一个主题的网址：

https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3

我尝试使用以下代码来获取第3页的第1个主题

String url_page3 = "https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3";
String key = "td.jive-table-cell-subject > a[href]";
Document doc = Jsoup.connect(url_page3).maxBodySize(0).timeout(0).get();
Element e = doc.select(key).first();
System.out.println(e.attr("abs:href");

它返回第1页的第一个主题（即使我将连接的网址更改为第4页，第5页，...）

但为什么会这样呢？我还有其他方法吗？

Answer 1

原因很简单。散列标记对服务器无关紧要，因此它只发送第一页。我猜其他页面是由AJAX发出的，因此您需要检查网络流量以找到该网址。比你还可以阅读下一页。

如何从在线完整的网页（仅限HTML）获取HTML表格内容？

1 个答案: