应用错误收集

时间：2014-08-28 12:37:25

标签： java javascript selenium web-scraping crawler4j

我遇到了一个问题：我想解析一个页面（例如this one）以收集有关所提供应用程序的信息，并将这些信息保存到数据库中。

此外，我使用crawler4j访问每个（可用）页面。但问题 - 我可以看到 - 是，crawler4j需要在源代码中跟随链接。

但是在这种情况下，hrefs是由一些JavaScript代码生成的，因此crawler4j不会获得访问/抓取页面的新链接。

所以我的想法是使用Selenium，以便我可以像Chrome或Firefox这样的真实浏览器中检查多个元素（我对此很新）。

但是，说实话，我不知道如何获取“生成的”HTML而不是源代码。

有人能帮助我吗？

答案 0 :(得分：0)

要检查元素，您不需要Selenium IDE，只需使用Firefox和Firebug扩展。此外，通过添加开发人员工具，您可以查看页面的源以及生成的源（这主要是针对PHP）。

Crawler4J无法像这样处理javascript。最好留给另一个更高级的抓取库。请在此处查看此回复：