创建一个“词汇表”以将对词频具有相同含义的词进行分组

时间:2020-06-25 12:18:05

标签: python pandas n-gram

我使用CountVectorizer从n元语法分析中获得了此输出(文本存储在pandas数据框中):

    Frequency
Words   
playstation 5   106
hours app   32
app store   20
5 playstation   17
hour app    16
... ...

我想知道是否可以在我可以设置的地方创建同义的“词汇”:

playstation 5 = 5 playstation

,以便将最终频率列表中的106 + 17相加。 它不是关于词条限制而是命令。我可以手动进行,但是我想知道如何进行。

非常感谢

1 个答案:

答案 0 :(得分:1)

如何使用Levenshtein距离检查两个单词的相似程度

from fuzzywuzzy import fuzz

fuzz.token_sort_ratio('playstation 5','5 playstation')
>> 100
fuzz.token_sort_ratio('playstation 5','4 playstation')
>> 92

我为此使用了fuzzy wuzzy python模块。