python numpy和内存效率(通过引用与值相比)

时间:2013-07-26 16:52:51

标签: python numpy reference pass-by-reference

我最近越来越多地使用python代替c / c ++,因为它将我的编码时间减少了几倍。与此同时,当我处理大量数据时,我的python程序运行的速度开始变得比c慢很多。我想知道这是否是由于我使用大型对象/数组效率低下。 是否有关于如何通过numpy / python处理内存的全面指南?当事物通过引用传递时,按值传递时,当事物被复制时,何时复制,什么类型是可变的,哪些不是。

2 个答案:

答案 0 :(得分:9)

python(和大多数主流语言)中的对象作为参考传递。

例如,如果我们采用numpy,通过索引现有数组创建的“新”数组只是原始视图。例如:

import numpy as np

>>> vec_1 = np.array([range(10)])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> vec_2 = vec_1[3:] # let vec_2 be vec_1 from the third element untill the end
>>> vec_2
array([3, 4, 5, 6, 7, 8, 9])
>>> vec_2[3] = 10000
array([3, 4, 5, 10000, 7, 8, 9])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 10000, 7, 8, 9])

Numpy有一个方便的方法来帮助解决你的问题,叫做may_share_memory(obj1,obj2)。所以:

>>> np.may_share_memory(vec_1, vec_2)
True

请注意,因为该方法可能会返回误报(虽然我从未见过)。

在SciPy 2013上有一个关于numpy(http://conference.scipy.org/scipy2013/tutorial_detail.php?id=100)的教程。最后,这个人谈了一下numpy如何处理记忆。看着它。

根据经验,默认情况下,对象几乎不会作为值传递。甚至封装在另一个对象上的那些。另一个例子,列表进行巡视:

Class SomeClass():

    def __init__(a_list):
        self.inside_list = a_list

    def get_list(self):
        return self.inside_list

>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list)
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,10000]

令人毛骨悚然,是吧? 使用赋值符号(“=”),或在函数末尾返回一个,您将始终创建指向对象或其一部分的指针。 对象仅在您明确这样做时才会重复,使用像some_dict.copy或array [:]这样的复制方法。例如:

>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list[:])
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,4]

知道了吗?

答案 1 :(得分:1)

因此我不得不引用EOL,因为我认为他的回答是非常相关的:

  

3)最后一点与问题标题有关:“按值传递”   并且“通过引用传递”不是与之相关的概念   蟒蛇。相关的概念是“可变对象”和   “不可改变的对象”。列表是可变的,而数字则不是   解释你所观察到的。此外,您的Person1和bar1对象是   可变(这就是为什么你可以改变这个人的年龄)。你可以找到   有关这些概念的更多信息,请参阅文本教程和视频   教程。维基百科也有一些(更多技术)信息。一个   示例说明了mutable和。之间行为的差异   一成不变    - answer by EOL

总的来说,我发现Numpy / Scipy遵循这些;更重要的是,他们在文档中明确告诉你发生了什么。

例如 np.random.shuffle要求输入数组并返回None,而np.random.permutation返回一个数组。您可以清楚地看到哪一个返回值而不是这里。

Simiarly数组具有pass-by-reference语义,一般来说我发现Numpy/Scipy非常有效。

我认为可以公平地说,如果使用pass-by-reference它会更快。只要您按照文档所说的方式使用这些功能,就不应该在速度方面遇到重大问题。


你问的具体是什么类型的?