为了便于说明,我们假设这是一个论坛服务。我需要计算每个用户帖子之间的“相似度”,以便结果如下:
among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
我正在处理多字节字符串,所以我猜我在这里遇到了搜索引擎。我们已经使用了Solr,已经有更多像这样实现了,但我不太确定如何构造查询。任何帮助表示赞赏!
答案 0 :(得分:1)
答案 1 :(得分:0)
因此,更准确地定义您的问题并获得更好的答案。
答案 2 :(得分:0)
有几种相似度量,简单有效的是余弦相似度。 有更复杂的,如史密斯 - 沃特曼等,