Question

我使用CountVectorizer从n元语法分析中获得了此输出（文本存储在pandas数据框中）：

    Frequency
Words   
playstation 5   106
hours app   32
app store   20
5 playstation   17
hour app    16
... ...

我想知道是否可以在我可以设置的地方创建同义的“词汇”：

playstation 5 = 5 playstation

，以便将最终频率列表中的106 + 17相加。它不是关于词条限制而是命令。我可以手动进行，但是我想知道如何进行。

非常感谢

Answer 1

如何使用Levenshtein距离检查两个单词的相似程度

from fuzzywuzzy import fuzz

fuzz.token_sort_ratio('playstation 5','5 playstation')
>> 100
fuzz.token_sort_ratio('playstation 5','4 playstation')
>> 92

我为此使用了fuzzy wuzzy python模块。

创建一个“词汇表”以将对词频具有相同含义的词进行分组

1 个答案: