Question

我正在努力加速我的剧本。它基本上用Velodyne的Lidar HDL-32信息读取pcap文件，并允许我获得X，Y，Z和Intensity值。我使用python -m cProfile ./spTestPcapToLas.py对我的脚本进行了分析，并且在readDataPacket()函数调用中花费了大量时间。在小测试（80 MB文件）中，解包部分占用大约56％的执行时间。

我这样调用readDataPacket函数（chunk引用pcap文件）：

packets = []
for packet in chunk:
    memoryView = memoryview(packet.raw())
    udpDestinationPort = unpack('!h', memoryView[36:38].tobytes())[0]

    if udpDestinationPort == 2368:
        packets += readDataPacket(memoryView)

readDataPacket()函数本身的定义如下：

def readDataPacket(memoryView):
    firingData = memoryView[42:]    
    firingDataStartingByte = 0    
    laserBlock = []

    for i in xrange(firingBlocks):
        rotational = unpack('<H', firingData[firingDataStartingByte+2:firingDataStartingByte+4])[0]        
        startingByte = firingDataStartingByte+4
        laser = []
        for j in xrange(lasers):   
            distanceInformation = unpack('<H', firingData[startingByte:(startingByte + 2)])[0] * 0.002
            intensity = unpack('<B', firingData[(startingByte + 2)])[0]   
            laser.append([distanceInformation, intensity])
            startingByte += 3
        firingDataStartingByte += 100
        laserBlock.append([rotational, laser])

    return laserBlock

有关如何加快流程的任何想法？顺便说一句，我正在使用numpy进行X，Y，Z，Intensity计算。

Answer 1

提前编译Struct，以避免使用模块级方法包含Python级别的代码。在环路之外进行，因此不会重复支付建设成本。

unpack_ushort = struct.Struct('<H').unpack
unpack_ushort_byte = struct.Struct('<HB').unpack

Struct方法本身在CPython中的C中实现（并且模块级方法最终在解析格式字符串后委托给同一个工作），因此构建Struct一次并存储绑定方法保存了大量的工作，特别是在解压缩少量值时。

您还可以通过将多个值一起解压缩来保存一些工作，而不是一次解压缩一个：

distanceInformation, intensity = unpack_ushort_byte(firingData[startingByte:startingByte + 3])
distanceInformation *= 0.002

作为Dan notes，您可以使用iter_unpack进一步改进这一点，这将进一步减少字节代码执行量和小切片操作。

Answer 2

Numpy让你很快就能做到这一点。在这种情况下，我认为最简单的方法是直接使用ndarray构造函数：

import numpy as np

def with_numpy(buffer):
    # Construct ndarray with: shape, dtype, buffer, offset, strides.
    rotational = np.ndarray((firingBlocks,), '<H', buffer, 42+2, (100,))
    distance = np.ndarray((firingBlocks,lasers), '<H', buffer, 42+4, (100,3))
    intensity = np.ndarray((firingBlocks,lasers), '<B', buffer, 42+6, (100,3))
    return rotational, distance*0.002, intensity

这将返回单独的数组而不是嵌套列表，这应该更容易进一步处理。作为输入，它需要一个buffer对象（在Python 2中）或暴露缓冲区接口的任何东西。不幸的是，这取决于您的Python版本（2/3）您可以准确使用哪些对象。但这种方法非常快：

import numpy as np

firingBlocks = 10**4
lasers = 32
packet_raw = np.random.bytes(42 + firingBlocks*100)

%timeit readDataPacket(memoryview(packet_raw))
# 1 loop, best of 3: 807 ms per loop
%timeit with_numpy(packet_raw)
# 100 loops, best of 3: 10.8 ms per loop

Answer 3

对于您的特定情况，如果您可以让循环适合numpy调用，那将是最快的。

话虽如此，对于struct.unpack部分来说-如果您的数据碰巧是本机字节顺序，则可以使用memoryview.cast。对于short的示例，它的逻辑速度比朴素的struct.unpack快3倍，而逻辑上没有任何变化。

In [20]: st = struct.Struct("<H")

In [21]: %timeit struct.unpack("<H", buf[20:22])
1.45 µs ± 26.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

In [22]: %timeit st.unpack(buf[20:22])
778 ns ± 10.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

In [23]: %timeit buf.cast("H")[0]
447 ns ± 4.16 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

Answer 4

您可以在一次通话中将原始distanceInformation和intensity值解压缩在一起。特别是因为您只是将它们放在一个列表中：这是unpack()解包多个值时的作用。在您的情况下，您需要将distanceInformation多个0.002多个，但是您可以通过将其保留到以后来节省时间，因为您可以使用iter_unpack()来解析整个原始对列表在一个电话中。该函数为您提供了一个生成器，可以使用itertools.islice()进行切片，然后将其转换为列表。像这样：

laser_iter = struct.iter_unpack('<HB', firingData[firingDataStartingByte + 4])
laser = [[d * 0.002, i] for d, i in itertools.islice(laser_iter, lasers)]

不幸的是，这有点难以阅读，因此您可能希望找到一种方法将其扩展到更多代码行中，使用更具描述性的变量名称，或者在您忘记为什么写这个时为未来添加注释...

加速python的struct.unpack

4 个答案: