solr - solr不会索引所有被nutch抓取的网址

我正在使用nutch2.2.1来抓取Eventbrite.com，但并非我从nutch收到的所有网址都没有被solr索引。例如：http://www.eventbrite.com/e/10335408485?aff=es2&rank=1 http://www.eventbrite.com/e/11176375841?aff=es2&rank=6 http://www.eventbrite.com/e/11276808237?aff=es2&rank=4 http://www.eventbrite.com/e/11454156691?aff=es2&rank=5 http://www.eventbrite.com/e/11595013999?aff=es2&rank=8 http://www.eventbrite.com/e/11898132635?aff=es2&rank=9

我收到了这些网址，当我抓取时，但我没有在solr管理页面中看到它们。我修改了nutch-site.xml文件以允许url中的特殊字符。因为我在hbase中存储了url的内容。我可以看到正在检索其他网址的html内容。但不是从这些页面。我是否需要修改任何其他配置文件？

solr不会索引所有被nutch抓取的网址

1 个答案: