我有一个带有文本列的pandas数据框,每个记录有50个短语,每个记录用“ |”分隔我想计算整个数据中的前50个词组。例如,考虑数据中的“文本”列,每行中有4个词组,并用管道分隔。 (实际数据有50个词组)。管道前后的空间。
text
0 "Andy | max min | tea | pal"
1 "no limit | toy 2011 | hess | mix"
2 "Andy | Andy | toy 2011| pal"
如何找到前n个功能?例如,在上面,前3个短语是:
Andy 3
toy 2011 2
pal 2
答案 0 :(得分:1)
请尝试:
<div class="group-category-1">
<div class="category-1">Name 1</div>
<div class="category-1">Name 2</div>
<div class="category-1">Name 3</div>
</div>
<div class="group-category-2">
<div class="category-2">Name 1</div>
<div class="category-2">Name 2</div>
<div class="category-3">Name 3</div>
</div>
<div class="group-category-3">
<div class="category-3">Name 1</div>
<div class="category-3">Name 2</div>
<div class="category-3">Name 3</div>
</div>
答案 1 :(得分:1)
这是获得答案的另一种方法。
df['text'].str.lower().str.split('|').explode().str.strip().value_counts().nlargest(3)