我正在寻找一种可扩展的方法来对大型数据集进行tf-idf搜索,因此自然会想到弹性搜索。在阅读他们用于评分的默认方法后,似乎没有人真正执行原始tf-idf。最接近的是他们的"Practical Scoring Function",但这结合了查询规范,协调因素等。我已经在下面附上了Lucene的公式。
有没有办法让弹性搜索返回一个原始的tf-idf分数而没有任何额外的绒毛?我已经测试了每个内置实现,但没有任何工作,只有tf-idf。
此应用程序中的原始tf-idf只是 -
此外,我使用了AWS配置的elaticsearch实例之一,因此我无法访问Java代码的内部。只有REST API。