我想提取[Word, Count]
作为列的DataFrame中最常用的单词。
结果应该与WordCloud
给出的结果相似,因为您可以看到仅考虑了相关的单词。因此,无需使用停用词,无需重复输入多个单词,而且大写字母也保持不变。
我尝试使用Counter,但结果考虑到仅存在单个单词和停用词。
x = Counter(' '.join(df['name']).split()).most_common(20)
pd.DataFrame(x, columns=['word', 'count'])
word count
0 in 8875
1 Private 3224
2 Room 2925
3 to 2645
4 room 2512
5 Bedroom 2404
6 Cozy 2324
7 2 2255
8 Brooklyn 2099
9 Apartment 2075
10 & 1966
12 Manhattan 1824
11 1 1885
13 with 1815
14 and 1714
15 of 1703
16 the 1700
17 Studio 1638
18 bedroom 1615
19 - 1567