Solr / Lucene:获取按索引中出现次数排序的所有字段名称

时间:2013-04-29 15:50:43

标签: solr lucene indexing

我想得到所有字段的列表(即字段名称),按照它们在Solr索引中出现的次数排序,即:最常出现的字段,第二个最常出现的字段和等等。

或者,获取索引中的所有字段及其出现的次数也就足够了。

如何使用单个solr查询或solr / lucene java API完成此操作?

字段集不固定,范围数百。几乎所有领域都是动态的,除了id和其他几个领域。

1 个答案:

答案 0 :(得分:3)

Solr: Retrieve field names from a solr index?中所述,您可以使用LukeRequesthandler执行此操作。

为此,您需要在 solrconfig.xml

启用requestHandler
<requestHandler name="/admin/luke" class="org.apache.solr.handler.admin.LukeRequestHandler" />

并将其命名为

http://solr:8983/solr/admin/luke?numTerms=0

如果您希望按照某些内容对字段进行排序,则需要自行执行此操作。如果您在java环境中,我建议使用Solrj。

使用Solrj

获取字段
@Test
public void lukeRequest() throws SolrServerException, IOException {
  SolrServer solrServer = new HttpSolrServer("http://solr:8983/solr");

  LukeRequest lukeRequest = new LukeRequest();
  lukeRequest.setNumTerms(1);
  LukeResponse lukeResponse = lukeRequest.process(solrServer );

  List<FieldInfo> sorted = new ArrayList<FieldInfo>(lukeResponse.getFieldInfo().values());
  Collections.sort(sorted, new FieldInfoComparator());
  for (FieldInfo infoEntry : sorted) {
    System.out.println("name: " + infoEntry.getName());
    System.out.println("docs: " + infoEntry.getDocs());
  }
}

示例中使用的比较器

public class FieldInfoComparator implements Comparator<FieldInfo> {
  @Override
  public int compare(FieldInfo fieldInfo1, FieldInfo fieldInfo2) {
    if (fieldInfo1.getDocs() > fieldInfo2.getDocs()) {
      return -1;
    }
    if (fieldInfo1.getDocs() < fieldInfo2.getDocs()) {
      return 1;
    }
    return fieldInfo1.getName().compareTo(fieldInfo2.getName());
  }
}