我有很多文档(分析了文本字段 title )。它们已在Elasticsearch中编入索引,现在我只需要为字段 title 中的每个术语获取术语频率TF和反向文档频率IDF,而无需任何查询。 (只需索引文档并检索字段 title 中所有术语的倒排索引)
Elasticsearch可以吗?
答案 0 :(得分:2)
我写了一篇关于如何从ES获得术语 - 文档矩阵的tutorial。这确实包括获取TF但不包括IDF。这是使用Python的ES 1.6.0。
如需更多信息,请查看TermVector API。
答案 1 :(得分:0)
没有。你可以找到一种方法以某种方式一起破解它。在每个查询的基础上,您可以使用EXPLAIN api例如https://www.elastic.co/guide/en/elasticsearch/reference/2.3/search-explain.html但是没有API可以返回此信息。
答案 2 :(得分:0)
GET /YOUR_INDEX/YOUR_DOC_TYPE/YOUR_ID/_termvectors
{
"fields" : ["YOUR_FIELD"],
"term_statistics" : true,
"field_statistics" : true
}
这将获得文档中每个单词的TF。
答案 3 :(得分:0)
万一有人仍然有与OP相似的问题,我创建了一个Python module called inelastic
,它打印出给定索引和字段的Elasticsearch倒排索引的近似值。