Question

是否可以从给定索引的所有分片中的字段获取所有标记的ttf（总项频率）？

e.g。我有：

PUT /index/type/1
{
  "sentence": "delicious cake"
}

PUT /index/type/2
{
  "sentence": "horrible cake"
}

我想得到：

cake 2
horrible 1
delicious 1

也可以为多个字段执行此操作（假设我有sentence1和sentence2并且我想在它们的串联上运行这样的计数？）

我知道termvectors给出了ttf，而mtermvectors可以为多个文档执行此操作，但之后我必须查看所有文档并以某种方式处理结果。

如果我可以控制K，实际上只有前K个术语对我来说就足够了。

Answer 1

如果你的字段＆＃39;句子＆＃39;分析您可以使用Terms Facet获得TTF：

POST /index/type/_search
{
  "query": {
    "match_all": {}
  },
  "facets" : {
      "sentence" : {
          "terms" : {
              "field" : "sentence",
              "size" : 10
          }
    }
  }
}

TTF将成为回应的一部分

您还可以传递字段数组[＆＃34;句子＆＃34;，＆＃34;句子2＆＃34;]来计算多个字段的TTF

POST /index/type/_search
{
    "query" : {
        "match_all" : {  }
    },
    "facets" : {
        "multiple_sentence" : {
            "terms" : {
                "fields" : ["sentence", "sentence2"],
                "size" : 10
            }
        }
    }
}

所有令牌的总数

1 个答案: