使用Web Client java刮取网站多个页面

时间:2013-05-23 11:46:06

标签: java web

我正在尝试使用Web客户端抓取一个网站,我能够在第一页上获取数据并解析它,但我不知道如何在第二页上读取数据,该网站正在调用java脚本导航到第二页。任何人都可以建议我如何从下一页获取数据?

提前致谢

2 个答案:

答案 0 :(得分:1)

你将遇到的问题是,当你(一个人)可以阅读第一页中的JavaScript并看到它正在导航到另一个页面时,让计算机执行此操作会很困难。

如果您可以识别执行导航的代码块,则需要以允许程序提取URL的方式执行它。这又将非常特定于JavaScript的结构,并且需要一个人来识别它。

简而言之,我认为你已经死在这个水中了,尽管这是Unobtrusive JavaScript概念如此重要的一个很好的例子。

答案 1 :(得分:0)

此框架将HtmlUnit与其无头启用javascript的浏览器集成,以完全支持在同一WebClient会话中编写多个页面的脚本:https://github.com/subes/invesdwin-webproxy