我正在通过Java代码在本地模式下使用Nut 1.13,使用org.apache.hadoop.util.ToolRunner进行了调用。它在具有64GB RAM 32核心处理器的Azure VM上运行。 我有四个在单个VM上运行的Java应用程序实例。 要检索50个深度为4且TopN为1000的种子URL,需要4个小时 以下是我的nutch-site配置
<property>
<name>fetcher.threads.fetch</name>
<value>16</value>
<description>
</description>
</property>
<property>
<name>fetcher.threads.per.queue</name>
<value>10</value>
<description>
</description>
</property>
有人可以确认此设置是否在充分利用多核系统,还是必须显式使用Hadoop?
在爬网时,还有一种情况,当topN为10时我可以获取所需的子URL,但当topN为1000时无法获取相同的子URL,这可能是什么原因?