我想得到所有字段的列表(即字段名称),按照它们在Solr索引中出现的次数排序,即:最常出现的字段,第二个最常出现的字段和等等。
或者,获取索引中的所有字段及其出现的次数也就足够了。
如何使用单个solr查询或solr / lucene java API完成此操作?
字段集不固定,范围数百。几乎所有领域都是动态的,除了id和其他几个领域。
答案 0 :(得分:3)
如Solr: Retrieve field names from a solr index?中所述,您可以使用LukeRequesthandler执行此操作。
为此,您需要在 solrconfig.xml
中启用requestHandler<requestHandler name="/admin/luke" class="org.apache.solr.handler.admin.LukeRequestHandler" />
并将其命名为
http://solr:8983/solr/admin/luke?numTerms=0
如果您希望按照某些内容对字段进行排序,则需要自行执行此操作。如果您在java环境中,我建议使用Solrj。
使用Solrj
获取字段@Test
public void lukeRequest() throws SolrServerException, IOException {
SolrServer solrServer = new HttpSolrServer("http://solr:8983/solr");
LukeRequest lukeRequest = new LukeRequest();
lukeRequest.setNumTerms(1);
LukeResponse lukeResponse = lukeRequest.process(solrServer );
List<FieldInfo> sorted = new ArrayList<FieldInfo>(lukeResponse.getFieldInfo().values());
Collections.sort(sorted, new FieldInfoComparator());
for (FieldInfo infoEntry : sorted) {
System.out.println("name: " + infoEntry.getName());
System.out.println("docs: " + infoEntry.getDocs());
}
}
示例中使用的比较器
public class FieldInfoComparator implements Comparator<FieldInfo> {
@Override
public int compare(FieldInfo fieldInfo1, FieldInfo fieldInfo2) {
if (fieldInfo1.getDocs() > fieldInfo2.getDocs()) {
return -1;
}
if (fieldInfo1.getDocs() < fieldInfo2.getDocs()) {
return 1;
}
return fieldInfo1.getName().compareTo(fieldInfo2.getName());
}
}