我正在使用apache nutch 1.12爬网一个站点,现在需要爬网该站点上一些javascript动态生成的页面。因此,我遵循了以下https://github.com/momer/nutch-selenium,但是当我抓取JS生成的页面然后运行小结readseg来获取内容时,该内容未被解析。
我已经根据上面的github页面上的步骤重建了问题,但是有什么方法可以知道JS页面是否被解析了吗?我在爬网过程中可以拖尾的任何硒日志,看看是否存在问题?
当我在动态页面上运行 nutch readseg -get 时,我看不到动态内容。
我已经检查了硒已启动并正在运行(localhost:4444),并相应地更新了我的nutch-site.xml,但是我不确定问题出在哪里?
有指针吗?
非常感谢