使用bin/nutch solrindex
命令有很多文档和示例,但bin/nutch elasticindex
命令缺少覆盖范围。我正在努力将Nutch 2.2.1的实例与Elasticsearch 0.90.2结合起来。我曾尝试使用this plugin将Elasticsearch伪装成Solr实例,但任何bin/crawl
作业都会因内部服务器错误而崩溃。我正在寻找的是bin/crawl
被修改为使用Elasticsearch的示例或bin/nutch elasticindex
命令的详细描述(nutch wiki没有页面)。我可以简单地用solrindex
免费替换短语elasticindex
的每一个出现位置吗?
答案 0 :(得分:0)
我已修改bin/crawl
以删除bin/nutch solrdedup
命令,并将solrindex
的所有提及替换为elasticindex
。
答案 1 :(得分:0)
我认为Nutch 2.2.x与Elasticsearch合作是不可能的。但是我没有看到2.2.x与1.8相比的额外好处。唯一的问题是Nutch 2.2.x使用Gora将抓取的页面保存在您选择的数据库中。由于您使用Elasticsearch对结果编制索引,因此我假设您不需要数据库。 我用Elasticsearch 0.90.11创建了Nutch 1.8,你可以在我的GitHub帐户上找到这个包: https://github.com/andreivisan/NutchElasticsearch