Nutch 1.4和Solr 3.6 - Nutch没有抓取301/302重定向

时间:2014-09-12 14:18:11

标签: solr nutch

我遇到的问题是重定向抓取初始页面时没有被抓取或编入索引。

我将http.redirect.max属性设置为5,我尝试了值0,1和3.

<property>
  <name>http.redirect.max</name>
  <value>5</value>
  <description>The maximum number of redirects the fetcher will follow when
  trying to fetch a page. If set to negative or 0, fetcher won't immediately
  follow redirected URLs, instead it will record them for later fetching.
  </description>
</property>

我还试图清除regex-urlfilter.txt和crawl-urlfilter.txt中的大部分内容。除了被抓取的网站,这是这些文件中唯一的其他参数。

# skip file: ftp: and mailto: urls
-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP|PDF|pdf|js|JS|swf|SWF|ashx|css|CSS|wmv|WMV)$

似乎Nutch正在抓取并仅推送具有查询字符串参数的页面。

查看输出时。

http://example.com/build    Version: 7
Status: 4 (db_redir_temp)
Fetch time: Fri Sep 12 00:32:33 EDT 2014
Modified time: Wed Dec 31 19:00:00 EST 1969
Retries since fetch: 0
Retry interval: 2700 seconds (0 days)
Score: 0.04620983
Signature: null
Metadata: _pst_: temp_moved(13), lastModified=0: http://example.com/build/

发生默认的IIS重定向,抛出302以添加尾部斜杠。我确保已在所有页面上添加此斜杠。所以不确定为什么要重定向。

更多信息,以下是我尝试的一些参数。

depth=5 (tried 1-10)
threads=30 (tried 1 - 30)
adddays=7 (tried 0, 7)
topN=500 (tried 500, 1000)

1 个答案:

答案 0 :(得分:0)

尝试在网络服务器上运行Wireshark以确切了解正在投放的内容,并在计算机Nutch上查看所请求的内容。如果他们在同一台服务器上,那就太好了。尝试并在捕获后将HTTP添加到过滤器框。