将二进制(0 | 1)numpy转换为整数或二进制字符串?

时间:2016-12-09 22:25:28

标签: python numpy binary bitstring

是否有将二进制(0 | 1)numpy数组转换为整数或二进制字符串的快捷方式? F.e。

b = np.array([0,0,0,0,0,1,0,1])   
  => b is 5

np.packbits(b)

只能用于8位值。如果numpy是9个或更多元素,它会生成2个或更多8位值。 另一种选择是返回0 | 1 ...

的字符串

我目前所做的是:

    ba = bitarray()
    ba.pack(b.astype(np.bool).tostring())
    #convert from bitarray 0|1 to integer
    result = int( ba.to01(), 2 )

这太丑了!!!

4 个答案:

答案 0 :(得分:10)

一种方法是将dot-product <Image Source="{Binding MyImageSource}" /> 范围数组 -

一起使用
2-powered

示例运行 -

b.dot(2**np.arange(b.size)[::-1])

或者,我们可以使用按位左移运算符来创建范围数组,从而得到所需的输出,如下所示 -

In [95]: b = np.array([1,0,1,0,0,0,0,0,1,0,1])

In [96]: b.dot(2**np.arange(b.size)[::-1])
Out[96]: 1285

如果时间有意义 -

b.dot(1 << np.arange(b.size)[::-1])

反向流程

要检索二进制数组,请使用np.binary_repr以及np.fromstring -

In [148]: b = np.random.randint(0,2,(50))

In [149]: %timeit b.dot(2**np.arange(b.size)[::-1])
100000 loops, best of 3: 13.1 µs per loop

In [150]: %timeit b.dot(1 << np.arange(b.size)[::-1])
100000 loops, best of 3: 7.92 µs per loop

答案 1 :(得分:1)

我使用向量化矩阵乘法代码扩展了@Divikar的优质点积解决方案,使其在主机上的运行速度提高了约180倍。一次运行一次的原始代码花了大约3分钟才能在我的pandas数据框中运行10万行18列。好吧,下周我需要从10万行升级到2000万行,因此〜10小时的运行时间对我来说不够快。首先,对新代码进行矢量化处理。那是python代码的真正变化。其次,matmult经常在您不见的情况下并行运行,这取决于您的主机配置,在多核处理器上,尤其是当存在OpenBLAS或其他BLAS以便numpy像这种matmult一样在矩阵代数上使用时。因此,如果有的话,它可以使用很多处理器和内核。

新的代码-非常简单-在主机上约1秒的ET中运行10万行x 18个二进制列,这对我来说是“完成任务”:

'''
Fast way is vectorized matmult. Pass in all rows and cols in one shot.
'''
def BitsToIntAFast(bits):
  m,n = bits.shape # number of columns is needed, not bits.size
  a = 2**np.arange(n)[::-1]  # -1 reverses array of powers of 2 of same length as bits
  return bits @ a  # this matmult is the key line of code

'''I use it like this:'''
bits = d.iloc[:,4:(4+18)] # read bits from my pandas dataframe
gs = BitsToIntAFast(bits)
print(gs[:5])
gs.shape
...
d['genre'] = np.array(gs)  # add the newly computed column to pandas

希望这会有所帮助。

答案 2 :(得分:1)

我的计时结果:

b.dot(2**np.arange(b.size)[::-1])
100000 loops, best of 3: 2.48 usec per loop

b.dot(1 << np.arange(b.size)[::-1])
100000 loops, best of 3: 2.24 usec per loop

# Precompute powers-of-2 array with a = 1 << np.arange(b.size)[::-1]
b.dot(a)
100000 loops, best of 3: 0.553 usec per loop

# using gmpy2 is slower
gmpy2.pack(list(map(int,b[::-1])), 1)
100000 loops, best of 3: 10.6 usec per loop

因此,如果您提前知道大小,则预先计算2的幂的阵列的速度将大大加快。但是,如果可能的话,您应该使用矩阵乘法同时进行所有计算,例如Geoffrey Anderson的答案。

答案 3 :(得分:0)

def binary_converter(arr):
    total = 0
    for index, val in enumerate(reversed(arr)):
        total += (val * 2**index)
    print total


In [14]: b = np.array([1,0,1,0,0,0,0,0,1,0,1])
In [15]: binary_converter(b)
1285
In [9]: b = np.array([0,0,0,0,0,1,0,1])
In [10]: binary_converter(b)
5

b = np.array([1,0,1,0,0,0,0,0,1,0,1])
sum(val * 2**index for index, val in enumerate(reversed(b)))