如何仅使用Apache solr中的存储字段计算文档

时间:2015-03-11 10:29:03

标签: apache indexing solr nutch

我正在使用solr 4.10.3。文档使用apache nutch 2.3编制索引。 schema.xml中有一个字段是tstamp,其中包含索引文档时的信息。此字段未编入索引并仅存储在solr中。我想在solr中计算nutch索引的文件数量。很明显,我必须使用tstamp字段。现在我该怎么办?

请详细说明。

1 个答案:

答案 0 :(得分:0)

默认的 nutch-default.xml 配置文件没有激活index-more插件。您可以通过将其添加到插件链来启用它。

查找plugin.includes属性并从

更改它

<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>

<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor|more)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>

index-more 将为获取日期编制索引。 现在要知道索引的文档总数,您需要执行Solr查询。

所有文件:*:*

过去24小时内编入索引的文件:date:[NOW-1DAY TO NOW]