提取清理成WordCloud的最常用单词?

时间:2019-12-20 18:15:46

标签: python pandas nltk

我想提取[Word, Count]作为列的DataFrame中最常用的单词。

结果应该与WordCloud给出的结果相似,因为您可以看到仅考虑了相关的单词。因此,无需使用停用词,无需重复输入多个单词,而且大写字母也保持不变。

WordCloud Example image

我尝试使用Counter,但结果考虑到仅存在单个单词和停用词。

x = Counter(' '.join(df['name']).split()).most_common(20)
pd.DataFrame(x, columns=['word', 'count'])

    word    count
0   in      8875
1   Private 3224
2   Room    2925
3   to      2645
4   room    2512
5   Bedroom 2404
6   Cozy    2324
7   2       2255
8   Brooklyn    2099
9   Apartment   2075
10  &       1966
12  Manhattan   1824
11  1       1885
13  with    1815
14  and     1714
15  of      1703
16  the     1700
17  Studio  1638
18  bedroom 1615
19  -       1567

0 个答案:

没有答案