我正在java中通过Selenium编写一个Web爬虫。以前我使用像jsoup和HtmlUnit这样的库来制作它们但是最近我遇到了javascript和ajax依赖页面的麻烦。
在做了一些google后我认为Selenium是一个很好的选择,因为它完全加载了我想要的页面。但我担心它会变得太慢。
硒是蜘蛛的好选择吗?有没有基于Selenium的蜘蛛的例子我可以参考???
答案 0 :(得分:0)
您可以尝试使用Apache的开源Web爬虫Nutch,这对于多线程也很有用,但我不确定它是否处理AJAX。 您的其他非Java选项是PhantomJS和CasperJS,它们是无头浏览器。它们比Selenium运行得更快,因为它们无头但是它们仍然很慢恕我直言。