我使用CountVectorizer从n元语法分析中获得了此输出(文本存储在pandas数据框中):
Frequency
Words
playstation 5 106
hours app 32
app store 20
5 playstation 17
hour app 16
... ...
我想知道是否可以在我可以设置的地方创建同义的“词汇”:
playstation 5 = 5 playstation
,以便将最终频率列表中的106 + 17相加。 它不是关于词条限制而是命令。我可以手动进行,但是我想知道如何进行。
非常感谢
答案 0 :(得分:1)
如何使用Levenshtein距离检查两个单词的相似程度
from fuzzywuzzy import fuzz
fuzz.token_sort_ratio('playstation 5','5 playstation')
>> 100
fuzz.token_sort_ratio('playstation 5','4 playstation')
>> 92
我为此使用了fuzzy wuzzy python模块。