Question

这是SKU关联性问题。我有一个这样的数据框。每个ctn_id具有多个sku_code。

dfr = pd.DataFrame(columns=['ctn_id','sku_code'])
dfr['ctn_id'] = np.random.randint(low=1,high=21,size=200)
dfr['sku_code'] = np.random.choice(['a','b','c','d'],size=200)
dfr.drop_duplicates(['ctn_id','sku_code'], inplace=True)

我要填充以下数据框。

dfx = pd.DataFrame(columns=['sku_code','a','b','c','d'])
dfx['sku_code'] = ['a','b','c','d']
dfx = dfx.fillna(0)
dfx.set_index('sku_code',inplace=True)

使用下面的逻辑

for idx in dfr['ctn_id'].unique():
    x = list(dfr[dfr['ctn_id'] == idx]['sku_code'].unique())
    for skui in dfx.index:
        if skui in x:
            for skuj in x:
                dfx.loc[skui, skuj] = dfx.loc[skui, skuj] + 1

我有250万个ctn_id和400个sk_codes，总共进行了十亿次赋值操作。有没有更好的方法可以使用pandas或任何其他软件包来做到这一点？

Answer 1

已更新，可以处理来自随机输入的重复

此答案假设没有重复的行（具有相同ctn_id和sku_code的行）。不过，您可以针对该用例轻松扩展此答案。

是的，您可以旋转数据框，使ctn_ids为行，而sku_codes为列。为此，您可以添加一个全为1的虚拟列，然后使用

green_variables.scss

现在，您基本上有一个稀疏矩阵，只要存在ctn_id / sku_code关系，它就为1，否则为0。从这里您可以使用矩阵代数。

dfr['Dummy'] = 1
piv = dfr.drop_duplicates().pivot('ctn_id', 'sku_code', 'Dummy').fillna(0.0)

变量mat = piv.values counts = mat.T.dot(mat)具有您要查找的内容（它将是对称的，值将是ctn_id中同时显示sku_code的次数，这是我相信您正在寻找的。

Answer 2

对于具有ctn_id的{{1}}，我们可以使用基于 array-assignment 的方法来获取integers,网格上的所有映射，然后使用矩阵乘法以获得合并总和，类似于@scomes's post-

2D

替代＃1

为了获得更好的性能，我们可以使用Ie = dfr.ctn_id.values J = dfr.sku_code.values I = pd.factorize(Ie,sort=False)[0] col2IDs,col2L = pd.factorize(J,sort=True) #use sort=False if order is irrelevant a = np.zeros((I.max()+1,col2IDs.max()+1),dtype=int) a[I,col2IDs] = 1 df_out = pd.DataFrame(a.T.dot(a), columns=col2L, index=col2L)值进行矩阵乘法。为此，请使用float dtype获得float。因此，像这样设置a-

替代＃2

或者使用布尔数组存储a = np.zeros((I.max()+1,col2IDs.max()+1),dtype=float)，然后转换dtype：

1s

Answer 3

好吧，我会试一试。

不确定这是否足够快，但我想这已经比您链接的for循环快得多。

它使用 hacky 方式执行“矢量化” 设置差异。

s = df.groupby(['sku_code']).ctn_id.agg(set)
pd.DataFrame(map(lambda s: list(map(len,s)), np.array(s) & np.array(s).reshape([-1,1])))

    0   1   2   3
0   18  17  18  16
1   17  19  19  17
2   18  19  20  17
3   16  17  17  17

使用您提供的示例，性能提高了约100倍。

# your method
79.4 ms ± 3.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
# my try
668 µs ± 30.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

如何矢量化熊猫操作以提高速度？

3 个答案: