elasticsearch获取对象的字段(上下文)中的单词数

时间:2018-06-20 12:11:37

标签: elasticsearch search web-crawler

抓取这些网站后,我们有2300个html页面,我们将它们索引到Elasticsearch 该项目的主要目的是建立一个按类别和按内容(带有关键字%%)的基本搜索引擎 样本对象结构为

  • URL
  • 类别
  • 内容**(除页眉和页脚部分之外的html)

到目前为止一切都还好。

此外,我们需要查找内容中每个单词的数量并将其编入索引。

例如

  • 内容:'算法定义定义标准 分析器根据定义将文本划分为单词边界上的多个术语 通过Unicode文本分段算法'
  • URL:'analysis-analyzers.html'
  • 类别:“ elasticsearch”

预期结果是

  • 单词:“算法”
  • 数量:2
  • URL:'analysis-analyzers.html'

ssssssssssssssssssssssssssssssssss

  • 单词:“已定义”
  • 数:3
  • URL:'analysis-analyzers.html'

    解决问题的最佳方法是什么? 谢谢。

0 个答案:

没有答案