Nutch多线程

时间:2009-06-13 16:39:40

标签: nutch

我试图配置nutch来运行多线程抓取。

然而,Iam面临一个问题。我无法使用多个线程运行爬网,我已经修改了nutch-site.xml以使用25个线程,但我仍然可以看到只有1个线程在运行。

<property>
  <name>fetcher.threads.fetch</name>
  <value>25</value>
  <description>The number of FetcherThreads the fetcher should use.
    This is also determines the maximum number of requests that are 
    made at once (each FetcherThread handles one connection).</description>
</property>

<property>
  <name>fetcher.threads.per.host</name>
  <value>25</value>
  <description>This number is the maximum number of threads that
    should be allowed to access a host at one time.</description>
</property>

我总是得到的价值 activeThreads = 25,spinWaiting = 24,fetchQueues.totalSize =某个值。

这是什么意思,请您解释一下这个问题,我该如何解决呢。

我将非常感谢您的帮助。

谢谢, 萨米特

1 个答案:

答案 0 :(得分:2)

我认为您的问题与新Nutch抓取器的已知错误有关。请参阅NUTCH-721

您可以尝试使用OldFetcher(如果您有Nutch 1.0)来查看是否能解决您的问题。

- 肯