标签: elasticsearch tf-idf
是否有人试图以下列方式自定义Elasticsearch中使用的BM25相似度? 这是一个常见的BM25分数。我希望术语频率为二进制(如果术语未在文档中显示,则为0;如果大于0则在文档中为术语频率,则为1)。所以在下面的图片中我希望tf(q_i,d)为{0,1}。 任何想法在Elasticsearch中实现这一目标的最简单方法是什么?
答案 0 :(得分:1)
实现此目的的一种方法是使用Unique Token Filter,它将在分析期间仅索引唯一标记 如果存在令牌,这应该相当于文档中的术语频率为1。