我遇到的问题是重定向抓取初始页面时没有被抓取或编入索引。
我将http.redirect.max属性设置为5,我尝试了值0,1和3.
<property>
<name>http.redirect.max</name>
<value>5</value>
<description>The maximum number of redirects the fetcher will follow when
trying to fetch a page. If set to negative or 0, fetcher won't immediately
follow redirected URLs, instead it will record them for later fetching.
</description>
</property>
我还试图清除regex-urlfilter.txt和crawl-urlfilter.txt中的大部分内容。除了被抓取的网站,这是这些文件中唯一的其他参数。
# skip file: ftp: and mailto: urls
-^(file|ftp|mailto):
# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP|PDF|pdf|js|JS|swf|SWF|ashx|css|CSS|wmv|WMV)$
似乎Nutch正在抓取并仅推送具有查询字符串参数的页面。
查看输出时。
http://example.com/build Version: 7
Status: 4 (db_redir_temp)
Fetch time: Fri Sep 12 00:32:33 EDT 2014
Modified time: Wed Dec 31 19:00:00 EST 1969
Retries since fetch: 0
Retry interval: 2700 seconds (0 days)
Score: 0.04620983
Signature: null
Metadata: _pst_: temp_moved(13), lastModified=0: http://example.com/build/
发生默认的IIS重定向,抛出302以添加尾部斜杠。我确保已在所有页面上添加此斜杠。所以不确定为什么要重定向。
更多信息,以下是我尝试的一些参数。
depth=5 (tried 1-10)
threads=30 (tried 1 - 30)
adddays=7 (tried 0, 7)
topN=500 (tried 500, 1000)
答案 0 :(得分:0)
尝试在网络服务器上运行Wireshark以确切了解正在投放的内容,并在计算机Nutch上查看所请求的内容。如果他们在同一台服务器上,那就太好了。尝试并在捕获后将HTTP添加到过滤器框。