我正在尝试使用Web客户端抓取一个网站,我能够在第一页上获取数据并解析它,但我不知道如何在第二页上读取数据,该网站正在调用java脚本导航到第二页。任何人都可以建议我如何从下一页获取数据?
提前致谢
答案 0 :(得分:1)
你将遇到的问题是,当你(一个人)可以阅读第一页中的JavaScript并看到它正在导航到另一个页面时,让计算机执行此操作会很困难。
如果您可以识别执行导航的代码块,则需要以允许程序提取URL的方式执行它。这又将非常特定于JavaScript的结构,并且需要一个人来识别它。
简而言之,我认为你已经死在这个水中了,尽管这是Unobtrusive JavaScript概念如此重要的一个很好的例子。
答案 1 :(得分:0)
此框架将HtmlUnit与其无头启用javascript的浏览器集成,以完全支持在同一WebClient会话中编写多个页面的脚本:https://github.com/subes/invesdwin-webproxy