应用错误收集

我正在通过Java代码在本地模式下使用Nut 1.13，使用org.apache.hadoop.util.ToolRunner进行了调用。它在具有64GB RAM 32核心处理器的Azure VM上运行。我有四个在单个VM上运行的Java应用程序实例。要检索50个深度为4且TopN为1000的种子URL，需要4个小时以下是我的nutch-site配置

<property>
  <name>fetcher.threads.fetch</name>
  <value>16</value>
  <description>
  </description>
</property>
<property>
  <name>fetcher.threads.per.queue</name>
  <value>10</value>
  <description>
   </description>
</property>

有人可以确认此设置是否在充分利用多核系统，还是必须显式使用Hadoop？

在爬网时，还有一种情况，当topN为10时我可以获取所需的子URL，但当topN为1000时无法获取相同的子URL，这可能是什么原因？

Nutch 1.13花费的时间太长

0 个答案: