Question

我有一个熊猫数据框，例如

Tag
-----
c#|.net
javascript|html|React
python|docker

我需要以groupby_tags={'c#','.net','python'}来计数

如何在python中做到这一点？谢谢。

Answer 1

可以使用counter和itertools链完成

cin.fail()

计数器包含总共c＃，python，.net等标记。

分组方式：

from itertools import chain
from collections import Counter

c = Counter(list(itertools.chain(*[i.split("|") for i in df["column-name"].tolist()])))

为该列提供一个数据框

df["column-name"].tolist()

从此处可以使用df[["A", "B"]] = df["column-name"].split("|", expand=True)

进行分组

groupby的另一种方法可以是>>> df col A B 0 a|b a b 1 c|d c d 2 a|c a c 3 b|d b d函数。 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html