熊猫应用功能Ver慢-将值计数与列表查找一起使用

时间:2019-06-17 22:06:31

标签: python-3.x pandas numpy pandas-apply

我有一个如下所示的熊猫DF,我正尝试将不同行中的值计数转置为以下格式:

   COL1    COL2    COL3
    C1      None    None
    C1      C2      None
    C1      C1      None
    C1      C2      C3

    C1  C2  C3
     1   0   0
     1   1   0
     2   0   0
     1   1   1

我在这里(Count occurrences of items in Series in each row of a DataFrame)找到了这个答案

这满足了我的需要,但是在我的数据集(400万行)上却非常慢。我尝试使用400,000行执行此操作,但它仍未以可接受的速度运行。

我相信它是通过大量数据集进行查找的列表,而apply实际上是一个for循环。巨大的循环使过程变慢。这里潜在的解决方案实质上是提到不要使用Apply,因为我的列表中有C1,C2 ... C100并有10个垂直列来验证计数,这会使执行起来很繁琐。关于在这里我可以尝试提高性能的任何提示?

这是下面的代码:

df_store = df.apply(pd.Series.value_counts, axis=1)[list_lookup].fillna(0)

2 个答案:

答案 0 :(得分:0)

这就是为什么我们通常不使用apply

df.stack().str.get_dummies().sum(level=0).drop('None',1)
Out[157]: 
   C1  C2  C3
0   1   0   0
1   1   1   0
2   2   0   0
3   1   1   1

或者使用Counter

from  collections import Counter


pd.DataFrame([ Counter(x) for x in df.values]).drop('None',1)
Out[170]: 
   C1   C2   C3
0   1  NaN  NaN
1   1  1.0  NaN
2   2  NaN  NaN
3   1  1.0  1.0

答案 1 :(得分:0)

如果您想要更快的解决方案,则需要使用numpy。使用numpy的一键编码,并将ndarray结果分配给数据帧。根据我的%timeit,它比Counter解决方案快6倍。缺点是您需要事先知道要编码的值,在您的情况下为C1C2C3 .... C100

encode_val = np.array(['C1', 'C2', 'C3'])
encode_arr = (df.values[...,None] == encode_val).astype(int).sum(1)

Out[237]:
array([[1, 0, 0],
       [1, 1, 0],
       [2, 0, 0],
       [1, 1, 1]])

pd.DataFrame(encode_arr, columns=encode_val)

Out[238]:
   C1  C2  C3
0   1   0   0
1   1   1   0
2   2   0   0
3   1   1   1