我想用Java程序抓取以下链接的全部内容。第一页没有问题,但是当我想要抓取下一页的数据时,有与第一页相同的源代码。因此,简单的HTTP Get根本没有帮助。
This是我需要抓取的网页的链接 该网站具有需要由HMTL / CSS / JavaScript呈现引擎解释和执行的活动内容。因此,我有一个简单的PhantomJS解决方案,但在Java中运行PhantomJS代码非常复杂。
有没有更简单的方法用Java代码阅读页面的整个内容?我已经找到了解决方案,但找不到合适的东西。
感谢您的帮助,
亲切的问候。
答案 0 :(得分:1)
使用Chrome网络日志(或任何其他浏览器中的类似工具),您可以识别加载页面上显示的实际数据的XHR请求。我删除了一些查询参数,但基本上请求如下所示:
GET https://www.blablacar.de/search_xhr?fn=frankfurt&fcc=DE&tn=muenchen&tcc=DE&sort=trip_date&order=asc&limit=10&page=1&user_bridge=0&_=1461181945520
有用的是,查询参数看起来很容易理解。 order=asc&limit=10&page=1
部分看起来很容易调整以返回您想要的结果。您可以调整page
参数来抓取连续的数据页面。
响应是JSON,有大量的库可供使用。