标签: python levenshtein-distance tf-idf cosine-similarity edit-distance
这个问题并不新鲜,我看到了某种形式的解释here和here。两种方法都描述了在查询1和查询2的条件下执行N克(大多数是bigrams)计算,然后找到余弦相似度。
我希望根据我的理解做出澄清:
我需要获得查询1和查询2中所有双字母组的TF-IDF分数,然后使用该分数计算余弦相似度分数。 如果是这样的话,是否有人能够编写一个简单的python代码以获得更清晰的解释?