Nutch 1.13花费的时间太长

时间:2018-12-03 10:10:28

标签: java nutch

我正在通过Java代码在本地模式下使用Nut 1.13,使用org.apache.hadoop.util.ToolRunner进行了调用。它在具有64GB RAM 32核心处理器的Azure VM上运行。  我有四个在单个VM上运行的Java应用程序实例。 要检索50个深度为4且TopN为1000的种子URL,需要4个小时 以下是我的nutch-site配置

<property>
  <name>fetcher.threads.fetch</name>
  <value>16</value>
  <description>
  </description>
</property>
<property>
  <name>fetcher.threads.per.queue</name>
  <value>10</value>
  <description>
   </description>
</property>

有人可以确认此设置是否在充分利用多核系统,还是必须显式使用Hadoop?

在爬网时,还有一种情况,当topN为10时我可以获取所需的子URL,但当topN为1000时无法获取相同的子URL,这可能是什么原因?

0 个答案:

没有答案