我正在使用nutch2.2.1来抓取Eventbrite.com,但并非我从nutch收到的所有网址都没有被solr索引。
例如:http://www.eventbrite.com/e/10335408485?aff=es2&rank=1
http://www.eventbrite.com/e/11176375841?aff=es2&rank=6
http://www.eventbrite.com/e/11276808237?aff=es2&rank=4
http://www.eventbrite.com/e/11454156691?aff=es2&rank=5
http://www.eventbrite.com/e/11595013999?aff=es2&rank=8
http://www.eventbrite.com/e/11898132635?aff=es2&rank=9
我收到了这些网址,当我抓取时,但我没有在solr管理页面中看到它们。我修改了nutch-site.xml文件以允许url中的特殊字符。因为我在hbase中存储了url的内容。我可以看到正在检索其他网址的html内容。但不是从这些页面。我是否需要修改任何其他配置文件?
答案 0 :(得分:1)
由于上面提到的网址正在重定向网址,我添加了属性 http.redirect.max为-1。我确保重定向的网址没有被regex-urlfilters.txt过滤。它现在有效。