Question

我想将数字转换为二进制并使用Python存储在Pandas中的多列中。这是一个例子。

df = pd.DataFrame([['a', 1], ['b', 2], ['c', 0]], columns=["Col_A", "Col_B"])

for i in range(0,len(df)):
    df.loc[i,'Col_C'],df.loc[i,'Col_D'] = list( (bin(df.loc[i,'Col_B']).zfill(2) ) )

我正在尝试转换二进制文件并将其存储在数据框中的多个列中。将数字转换为二进制后，输出必须包含2位数字。一切正常。

问题：如果我的数据集包含数千条记录，我可以看到性能差异。如果我想提高上述代码的性能，我们该怎么做？我尝试使用以下单行代码，但对我而言不起作用。

df[['Col_C','Col_D']] = list( (bin(df['Col_B']).zfill(2) ) )

Answer 1

如果性能很重要，请将numpy与this solution结合使用：

d = df['Col_B'].values
m = 2
df[['Col_C','Col_D']]  = pd.DataFrame((((d[:,None] & (1 << np.arange(m)))) > 0).astype(int))
print (df)
  Col_A  Col_B  Col_C  Col_D
0     a      1      1      0
1     b      2      0      1
2     c      0      0      0

性能（快1000倍）：

df = pd.DataFrame([['a', 1], ['b', 2], ['c', 0]], columns=["Col_A", "Col_B"])


df = pd.concat([df] * 1000, ignore_index=True)

In [162]: %%timeit
     ...: df[['Col_C','Col_D']] = df['Col_B'].apply(lambda x: pd.Series(list(bin(x)[2:].zfill(2))))
     ...: 
609 ms ± 14.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [163]: %%timeit
     ...: d = df['Col_B'].values
     ...: m = 2
     ...: df[['Col_C','Col_D']]  = pd.DataFrame((((d[:,None] & (1 << np.arange(m)))) > 0).astype(int))
     ...: 
618 µs ± 26.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Answer 2

apply是您要寻找的方法。

df[['Col_C','Col_D']] = df['Col_B'].apply(lambda x: pd.Series(list(bin(x)[2:].zfill(2))))

起到了作用。

我对3000行进行了基准测试，它比您提到的for循环方法快（0.5秒vs 3秒）。但是通常速度不会快得多，因为它仍然需要分别为每行应用该功能。

from time import time
start = time()
for i in range(0,len(df)):
    df.loc[i,'Col_C'],df.loc[i,'Col_D'] = list( (bin(df.loc[i,'Col_B'])[2:].zfill(2) ) )
print(time() - start)
# 3.4339962005615234

start = time()
df[['Col_C','Col_D']] = df['Col_B'].apply(lambda x: pd.Series(list(bin(x)[2:].zfill(2))))
print(time() - start)
# 0.5619983673095703

注意：我使用的是python 3，例如bin(1)返回'0b1'，因此我使用bin(x)[2:]摆脱了'0b'部分。

使用python将数字转换为二进制并存储在熊猫的多列中

2 个答案: