solr不会索引所有被nutch抓取的网址

时间:2014-07-29 17:04:03

标签: solr nutch

我正在使用nutch2.2.1来抓取Eventbrite.com,但并非我从nutch收到的所有网址都没有被solr索引。 例如:http://www.eventbrite.com/e/10335408485?aff=es2&rank=1 http://www.eventbrite.com/e/11176375841?aff=es2&rank=6  http://www.eventbrite.com/e/11276808237?aff=es2&rank=4  http://www.eventbrite.com/e/11454156691?aff=es2&rank=5  http://www.eventbrite.com/e/11595013999?aff=es2&rank=8  http://www.eventbrite.com/e/11898132635?aff=es2&rank=9

我收到了这些网址,当我抓取时,但我没有在solr管理页面中看到它们。我修改了nutch-site.xml文件以允许url中的特殊字符。因为我在hbase中存储了url的内容。我可以看到正在检索其他网址的html内容。但不是从这些页面。我是否需要修改任何其他配置文件?

1 个答案:

答案 0 :(得分:1)

由于上面提到的网址正在重定向网址,我添加了属性 http.redirect.max为-1。我确保重定向的网址没有被regex-urlfilters.txt过滤。它现在有效。

相关问题