阅读Java中的网页的完整内容

时间:2016-04-20 19:46:20

标签: java html

我想用Java程序抓取以下链接的全部内容。第一页没有问题,但是当我想要抓取下一页的数据时,有与第一页相同的源代码。因此,简单的HTTP Get根本没有帮助。

This是我需要抓取的网页的链接 该网站具有需要由HMTL / CSS / JavaScript呈现引擎解释和执行的活动内容。因此,我有一个简单的PhantomJS解决方案,但在Java中运行PhantomJS代码非常复杂。

有没有更简单的方法用Java代码阅读页面的整个内容?我已经找到了解决方案,但找不到合适的东西。

感谢您的帮助,
亲切的问候。

1 个答案:

答案 0 :(得分:1)

使用Chrome网络日志(或任何其他浏览器中的类似工具),您可以识别加载页面上显示的实际数据的XHR请求。我删除了一些查询参数,但基本上请求如下所示:

GET https://www.blablacar.de/search_xhr?fn=frankfurt&fcc=DE&tn=muenchen&tcc=DE&sort=trip_date&order=asc&limit=10&page=1&user_bridge=0&_=1461181945520

有用的是,查询参数看起来很容易理解。 order=asc&limit=10&page=1部分看起来很容易调整以返回您想要的结果。您可以调整page参数来抓取连续的数据页面。

响应是JSON,有大量的库可供使用。