Apache Nutch特权

时间:2016-04-22 07:03:00

标签: java hadoop web-crawler nutch

我遇到了这个非常大的工具,然后深入研究了一些不那么漂亮的文档和/或购买ebook:我只是想问:

Apache Nutch如何处理javascript繁重的网站,以及它如何获取页面? 我的意思是:它如何克服IP禁令?

1 个答案:

答案 0 :(得分:0)

Javascript - 有一个基于Selenium的协议实现,这可以帮助JS站点

Nutch基于Hadoop,因此是批量驱动的。如果您使用的是基于流的抓取框架,那么StormCrawler将是一个更好的工具。