我的任务是创建一个类似于Ngram的数据集视图/图表。该图表只是基本术语(ngrams)随时间变化的折线图。
我对SOLR没有任何经验,但已经获得了包含大量数据的核心,并且理解我需要使用Shingles来提取数据,它显然已被索引使用Ngrams虽然我需要找出究竟是什么
所以我认为我可以获得整个数据的Ngram / shingle,但是如何随着时间的推移获得结果,比如说每个月超过五年?数据是报纸数据,因此日期和日期是索引的一部分,全文也是如此。
是否有SOLR电话随时间获取数据,或者我应该每天/每月向Solr提出多少请求?
非常感谢任何建议或经验
答案 0 :(得分:0)
在索引内容时通常会执行带状符和ngram,因为您希望将带状疱疹或ngram单独编入索引以获取它们的任何有用计数。您可以使用字段上的分面生成这些计数,但随着时间的推移,最简单的方法是发出几个查询,如您所猜测的那样。您可以使用过滤查询(&fq=
)来限制返回的集合(如果您不将其用于其他任何内容,则只使用常规q=
。)
如果不了解您的内容,如何将其编入索引以及您想要获得什么内容,还有什么比这更难说的。