将可变大小的子列表的嵌套列表展平为SciPy数组

时间:2013-03-12 15:58:52

标签: python numpy scipy

如何使用numpy / scipy来展平具有不同大小的子列表的嵌套列表?速度非常重要且列表很大。

 lst = [[1, 2, 3, 4],[2, 3],[1, 2, 3, 4, 5],[4, 1, 2]]

有什么比这更快的吗?

 vec = sp.array(list(*chain(lst)))

6 个答案:

答案 0 :(得分:13)

np.fromiter

怎么样?
In [49]: %timeit np.hstack(lst*1000)
10 loops, best of 3: 25.2 ms per loop

In [50]: %timeit np.array(list(chain.from_iterable(lst*1000)))
1000 loops, best of 3: 1.81 ms per loop

In [52]: %timeit np.fromiter(chain.from_iterable(lst*1000), dtype='int')
1000 loops, best of 3: 1 ms per loop

答案 1 :(得分:8)

您可以尝试numpy.hstack

>>> lst = [[1, 2, 3, 4],[2, 3],[1, 2, 3, 4, 5],[4, 1, 2]]
>>> np.hstack(lst)
array([1, 2, 3, 4, 2, 3, 1, 2, 3, 4, 5, 4, 1, 2])

答案 2 :(得分:5)

从迭代器创建numpy数组的最快方法是使用numpy.fromiter

>>> %timeit numpy.fromiter(itertools.chain.from_iterable(lst), numpy.int64)
100000 loops, best of 3: 3.76 us per loop
>>> %timeit numpy.array(list(itertools.chain.from_iterable(lst)))
100000 loops, best of 3: 14.5 us per loop
>>> %timeit numpy.hstack(lst)
10000 loops, best of 3: 57.7 us per loop

正如您所看到的,这比转换为列表更快,并且比hstack快得多。

答案 3 :(得分:3)

尝试怎么样:

np.hstack(lst)

答案 4 :(得分:1)

使用chain.from_iterable

vec = sp.array(list(chain.from_iterable(lst)))

这可以避免使用*,如果迭代有很多子列表,则处理起来非常昂贵。

其他选项可能sum列表:

vec = sp.array(sum(lst, []))

但请注意,这会导致quadratic reallocation。这样的事情可以更好地执行更多

def sum_lists(lst):
    if len(lst) < 2:
        return sum(lst, [])
    else:
        half_length = len(lst) // 2
        return sum_lists(lst[:half_length]) + sum_lists(lst[half_length:])

在我的机器上,我得到:

>>> L = [[random.randint(0, 500) for _ in range(x)] for x in range(10, 510)]
>>> timeit.timeit('sum(L, [])', 'from __main__ import L', number=1000)
168.3029818534851
>>> timeit.timeit('sum_lists(L)', 'from __main__ import L,sum_lists', number=1000)
10.248489141464233
>>> 168.3029818534851 / 10.248489141464233
16.422223757114615

正如您所看到的,加速16倍。 chain.from_iterable甚至更快:

>>> timeit.timeit('list(itertools.chain.from_iterable(L))', 'import itertools; from __main__ import L', number=1000)
1.905594825744629
>>> 10.248489141464233 / 1.905594825744629
5.378105042586658

另外6倍加速。


我找了一个“纯蟒蛇”解决方案,不知道numpy。我相信 Abhijit unutbu / senderle的解决方案是您的理由。

答案 5 :(得分:0)

使用功能展平列表

>>> flatten = lambda x: [y for l in x for y in flatten(l)] if type(x) is list else [x]
>>> flatten(lst)