应用错误收集

Apache Nutch特权

时间：2016-04-22 07:03:00

标签： java hadoop web-crawler nutch

我遇到了这个非常大的工具，然后深入研究了一些不那么漂亮的文档和/或购买ebook：我只是想问：

Apache Nutch如何处理javascript繁重的网站，以及它如何获取页面？我的意思是：它如何克服IP禁令？

1 个答案:

答案 0 :(得分：0)

Javascript - 有一个基于Selenium的协议实现，这可以帮助JS站点

Nutch基于Hadoop，因此是批量驱动的。如果您使用的是基于流的抓取框架，那么StormCrawler将是一个更好的工具。