我遇到了一个问题:我想解析一个页面(例如this one)以收集有关所提供应用程序的信息,并将这些信息保存到数据库中。
此外,我使用crawler4j访问每个(可用)页面。但问题 - 我可以看到 - 是,crawler4j需要在源代码中跟随链接。
但是在这种情况下,hrefs是由一些JavaScript代码生成的,因此crawler4j不会获得访问/抓取页面的新链接。
所以我的想法是使用Selenium,以便我可以像Chrome或Firefox这样的真实浏览器中检查多个元素(我对此很新)。
但是,说实话,我不知道如何获取“生成的”HTML而不是源代码。
有人能帮助我吗?
答案 0 :(得分:0)
要检查元素,您不需要Selenium IDE,只需使用Firefox和Firebug扩展。此外,通过添加开发人员工具,您可以查看页面的源以及生成的源(这主要是针对PHP)。
Crawler4J无法像这样处理javascript。最好留给另一个更高级的抓取库。请在此处查看此回复: