在Elasticsearch中获取索引文档的倒排索引

时间:2016-03-30 17:52:22

标签: elasticsearch tf-idf

我有很多文档(分析了文本字段 title )。它们已在Elasticsearch中编入索引,现在我只需要为字段 title 中的每个术语获取术语频率TF和反向文档频率IDF,而无需任何查询。 (只需索引文档并检索字段 title 中所有术语的倒排索引)

Elasticsearch可以吗?

4 个答案:

答案 0 :(得分:2)

我写了一篇关于如何从ES获得术语 - 文档矩阵的tutorial。这确实包括获取TF但不包括IDF。这是使用Python的ES 1.6.0。

如需更多信息,请查看TermVector API

答案 1 :(得分:0)

没有。你可以找到一种方法以某种方式一起破解它。在每个查询的基础上,您可以使用EXPLAIN api例如https://www.elastic.co/guide/en/elasticsearch/reference/2.3/search-explain.html但是没有API可以返回此信息。

答案 2 :(得分:0)

GET /YOUR_INDEX/YOUR_DOC_TYPE/YOUR_ID/_termvectors
{
  "fields" : ["YOUR_FIELD"],
  "term_statistics" : true,
  "field_statistics" : true
}

这将获得文档中每个单词的TF。

答案 3 :(得分:0)

万一有人仍然有与OP相似的问题,我创建了一个Python module called inelastic,它打印出给定索引和字段的Elasticsearch倒排索引的近似值。