在Nutch中配置RAM

时间:2019-01-22 04:53:58

标签: nutch nutch2

我正在使用Nutch 1.10来抓取我组织的网站。我使用具有16Gb RAM的系统来进行此爬网。截至目前,我的nutch文件在爬网数据时仅使用3-4Gb RAM,几乎要花10个小时才能完成数据。有什么方法可以配置小部件以使用超过12Gb的RAM来完成同一任务?欢迎所有建议!

1 个答案:

答案 0 :(得分:1)

假设脚本bin / nutch或bin / crawl用于在本地模式(无Hadoop群集)中进行爬网:环境变量NUTCH_HEAPSIZE定义了以MB为单位的堆大小。