Question

我想用Java程序抓取以下链接的全部内容。第一页没有问题，但是当我想要抓取下一页的数据时，有与第一页相同的源代码。因此，简单的HTTP Get根本没有帮助。

This是我需要抓取的网页的链接该网站具有需要由HMTL / CSS / JavaScript呈现引擎解释和执行的活动内容。因此，我有一个简单的PhantomJS解决方案，但在Java中运行PhantomJS代码非常复杂。

有没有更简单的方法用Java代码阅读页面的整个内容？我已经找到了解决方案，但找不到合适的东西。

感谢您的帮助，
亲切的问候。

Answer 1

使用Chrome网络日志（或任何其他浏览器中的类似工具），您可以识别加载页面上显示的实际数据的XHR请求。我删除了一些查询参数，但基本上请求如下所示：

GET https://www.blablacar.de/search_xhr?fn=frankfurt&fcc=DE&tn=muenchen&tcc=DE&sort=trip_date&order=asc&limit=10&page=1&user_bridge=0&_=1461181945520

有用的是，查询参数看起来很容易理解。 order=asc&limit=10&page=1部分看起来很容易调整以返回您想要的结果。您可以调整page参数来抓取连续的数据页面。

响应是JSON，有大量的库可供使用。