我错在哪里? Iam使用hadoop 2.7.2,Solr 5.4.1和nutch 1.12版本 任何人都可以帮助我摆脱这个查询。
http.agent.name 抓取
plugin.includes 协议的HttpClient | urlfilter正则表达式|首页 - (基本|更多)|查询 - (基本|网站|网址|朗)|索引-的Solr | Nutch的-extensionpoints |协议的HttpClient | urlfilter正则表达式| parse-(文| HTML | msexcel的| MSWORD | mspowerpoint | PDF)|摘要碱性|记分OPIC | urlnormalizer-(传递|正则表达式|基本)协议HTTP | urlfilter正则表达式| parse-(HTML | TIKA |元标记)|索引 - (基本|锚|更多|元数据)
fetcher.server.delay 0.5
http.timeout 10000
http.content.limit 131027
正在运行cmd :bin / nutch index -Dsolr.server.url = http://localhost:8983/solr/#/collections crawl / crawldb -linkdb crawl / linkdb crawl / segments / 20160604193022
Indexer:从2016-06-05 20:57:34开始 索引器:删除已删除的文件:false Indexer:URL过滤:false Indexer:URL规范化:false 未激活IndexWriters - 请检查您的配置
索引器:索引,删除或跳过的文档数: Indexer:2016-06-05 20:57:38结束,已过去:00:00:04
由于
Narendra k
答案 0 :(得分:0)
我想你必须确保包含插件indexer-solr。转到文件:conf / nutch-site.xml并在属性plugin.includes中添加插件,例如:
协议HTTP | urlfilter正则表达式| parse-(HTML | TIKA)|索引 - (基本|锚)|索引-solr的|记分OPIC | urlnormalizer-(传递|正则表达式|基本)
我希望它有所帮助。