将selenium实现为webCrawler

时间:2013-06-14 11:49:49

标签: java web-scraping web-crawler selenium-webdriver

我正在java中通过Selenium编写一个Web爬虫。以前我使用像jsoup和HtmlUnit这样的库来制作它们但是最近我遇到了javascript和ajax依赖页面的麻烦。

在做了一些google后我认为Selenium是一个很好的选择,因为它完全加载了我想要的页面。但我担心它会变得太慢。

硒是蜘蛛的好选择吗?有没有基于Selenium的蜘蛛的例子我可以参考???

1 个答案:

答案 0 :(得分:0)

您可以尝试使用Apache的开源Web爬虫Nutch,这对于多线程也很有用,但我不确定它是否处理AJAX。 您的其他非Java选项是PhantomJS和CasperJS,它们是无头浏览器。它们比Selenium运行得更快,因为它们无头但是它们仍然很慢恕我直言。