Question

我最近越来越多地使用python代替c / c ++，因为它将我的编码时间减少了几倍。与此同时，当我处理大量数据时，我的python程序运行的速度开始变得比c慢很多。我想知道这是否是由于我使用大型对象/数组效率低下。是否有关于如何通过numpy / python处理内存的全面指南？当事物通过引用传递时，按值传递时，当事物被复制时，何时复制，什么类型是可变的，哪些不是。

Answer 1

python（和大多数主流语言）中的对象作为参考传递。

例如，如果我们采用numpy，通过索引现有数组创建的“新”数组只是原始视图。例如：

import numpy as np

>>> vec_1 = np.array([range(10)])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> vec_2 = vec_1[3:] # let vec_2 be vec_1 from the third element untill the end
>>> vec_2
array([3, 4, 5, 6, 7, 8, 9])
>>> vec_2[3] = 10000
array([3, 4, 5, 10000, 7, 8, 9])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 10000, 7, 8, 9])

Numpy有一个方便的方法来帮助解决你的问题，叫做may_share_memory（obj1，obj2）。所以：

>>> np.may_share_memory(vec_1, vec_2)
True

请注意，因为该方法可能会返回误报（虽然我从未见过）。

在SciPy 2013上有一个关于numpy（http://conference.scipy.org/scipy2013/tutorial_detail.php?id=100）的教程。最后，这个人谈了一下numpy如何处理记忆。看着它。

根据经验，默认情况下，对象几乎不会作为值传递。甚至封装在另一个对象上的那些。另一个例子，列表进行巡视：

Class SomeClass():

    def __init__(a_list):
        self.inside_list = a_list

    def get_list(self):
        return self.inside_list

>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list)
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,10000]

令人毛骨悚然，是吧？使用赋值符号（“=”），或在函数末尾返回一个，您将始终创建指向对象或其一部分的指针。 对象仅在您明确这样做时才会重复，使用像some_dict.copy或array [：]这样的复制方法。例如：

>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list[:])
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,4]

知道了吗？

Answer 2

因此我不得不引用EOL，因为我认为他的回答是非常相关的：

3）最后一点与问题标题有关：“按值传递” 并且“通过引用传递”不是与之相关的概念蟒蛇。相关的概念是“可变对象”和 “不可改变的对象”。列表是可变的，而数字则不是解释你所观察到的。此外，您的Person1和bar1对象是可变（这就是为什么你可以改变这个人的年龄）。你可以找到有关这些概念的更多信息，请参阅文本教程和视频教程。维基百科也有一些（更多技术）信息。一个示例说明了mutable和。之间行为的差异一成不变 - answer by EOL

总的来说，我发现Numpy / Scipy遵循这些;更重要的是，他们在文档中明确告诉你发生了什么。

例如 np.random.shuffle要求输入数组并返回None，而np.random.permutation返回一个数组。您可以清楚地看到哪一个返回值而不是这里。

Simiarly数组具有pass-by-reference语义，一般来说我发现Numpy/Scipy非常有效。

我认为可以公平地说，如果使用pass-by-reference它会更快。只要您按照文档所说的方式使用这些功能，就不应该在速度方面遇到重大问题。

你问的具体是什么类型的？

python numpy和内存效率（通过引用与值相比）

2 个答案: