我正在开展一个项目,我正在使用elasticsearch来分析推文。我正在制作一个他们最常推文的热门话题(人们的兴趣)列表。
由于推文大部分时间都有必须在可以用作列表(兴趣)名称之前删除的词语。
Elasticsearch擅长从数据库中搜索它处理停用词;药品;在后台,但我想知道是否有一种方法可以从弹性搜索API中得到我的推文中的词干。
我认为apache lucene可以做到这一点,但我想坚持使用elasticsearch。
任何人都可以建议我在弹性搜索中实现这一目标。
提前致谢!!!
假设我们有3个单词,例如。演奏,演奏,演奏等。
这些单词在词干之后是相同的(播放),所以我想在这里增加只播放(词干)的计数,而不是3个非词干的单个计数。
希望这个例子能让我的目标更清晰。
答案 0 :(得分:1)
如何使用Elasticsearch的Analyze API? http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/indices-analyze.html
答案 1 :(得分:1)
使用雪球分析仪可以实现这一目标。