我正在使用Nutch-1.4来抓取网站。我在爬行中面临的问题是抓取器总是以N个挂起的线程中止。 日志文件中的条目是,
INFO fetcher.Fetcher - -activeThreads = 1,spinWaiting = 0,fetchQueues.totalSize = 0
INFO fetcher.Fetcher - -activeThreads = 1,spinWaiting = 0,fetchQueues.totalSize = 0
INFO fetcher.Fetcher - -activeThreads = 1,spinWaiting = 0,fetchQueues.totalSize = 0
警告fetcher.Fetcher - 用1个挂起的线程中止。
如何解决此问题?
答案 0 :(得分:3)
尽管有各种意图,但有些请求似乎仍然悬而未决。当Fetcher线程长时间不执行任何活动时会发生这种情况。见第932-936行here。
此处处理的步骤:
wget
来自同一台机器的那些网址。我认为如果你使用这些东西,你可以解决它。