标签: java hadoop web-crawler nutch
我遇到了这个非常大的工具,然后深入研究了一些不那么漂亮的文档和/或购买ebook:我只是想问:
Apache Nutch如何处理javascript繁重的网站,以及它如何获取页面? 我的意思是:它如何克服IP禁令?
答案 0 :(得分:0)
Javascript - 有一个基于Selenium的协议实现,这可以帮助JS站点
Nutch基于Hadoop,因此是批量驱动的。如果您使用的是基于流的抓取框架,那么StormCrawler将是一个更好的工具。