我最近越来越多地使用python代替c / c ++,因为它将我的编码时间减少了几倍。与此同时,当我处理大量数据时,我的python程序运行的速度开始变得比c慢很多。我想知道这是否是由于我使用大型对象/数组效率低下。 是否有关于如何通过numpy / python处理内存的全面指南?当事物通过引用传递时,按值传递时,当事物被复制时,何时复制,什么类型是可变的,哪些不是。
答案 0 :(得分:9)
python(和大多数主流语言)中的对象作为参考传递。
例如,如果我们采用numpy,通过索引现有数组创建的“新”数组只是原始视图。例如:
import numpy as np
>>> vec_1 = np.array([range(10)])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> vec_2 = vec_1[3:] # let vec_2 be vec_1 from the third element untill the end
>>> vec_2
array([3, 4, 5, 6, 7, 8, 9])
>>> vec_2[3] = 10000
array([3, 4, 5, 10000, 7, 8, 9])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 10000, 7, 8, 9])
Numpy有一个方便的方法来帮助解决你的问题,叫做may_share_memory(obj1,obj2)。所以:
>>> np.may_share_memory(vec_1, vec_2)
True
请注意,因为该方法可能会返回误报(虽然我从未见过)。
在SciPy 2013上有一个关于numpy(http://conference.scipy.org/scipy2013/tutorial_detail.php?id=100)的教程。最后,这个人谈了一下numpy如何处理记忆。看着它。
根据经验,默认情况下,对象几乎不会作为值传递。甚至封装在另一个对象上的那些。另一个例子,列表进行巡视:
Class SomeClass():
def __init__(a_list):
self.inside_list = a_list
def get_list(self):
return self.inside_list
>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list)
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,10000]
令人毛骨悚然,是吧? 使用赋值符号(“=”),或在函数末尾返回一个,您将始终创建指向对象或其一部分的指针。 对象仅在您明确这样做时才会重复,使用像some_dict.copy或array [:]这样的复制方法。例如:
>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list[:])
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,4]
知道了吗?
答案 1 :(得分:1)
因此我不得不引用EOL,因为我认为他的回答是非常相关的:
3)最后一点与问题标题有关:“按值传递” 并且“通过引用传递”不是与之相关的概念 蟒蛇。相关的概念是“可变对象”和 “不可改变的对象”。列表是可变的,而数字则不是 解释你所观察到的。此外,您的Person1和bar1对象是 可变(这就是为什么你可以改变这个人的年龄)。你可以找到 有关这些概念的更多信息,请参阅文本教程和视频 教程。维基百科也有一些(更多技术)信息。一个 示例说明了mutable和。之间行为的差异 一成不变 - answer by EOL
总的来说,我发现Numpy / Scipy遵循这些;更重要的是,他们在文档中明确告诉你发生了什么。
例如
np.random.shuffle
要求输入数组并返回None
,而np.random.permutation
返回一个数组。您可以清楚地看到哪一个返回值而不是这里。
Simiarly数组具有pass-by-reference语义,一般来说我发现Numpy/Scipy
非常有效。
我认为可以公平地说,如果使用pass-by-reference
它会更快。只要您按照文档所说的方式使用这些功能,就不应该在速度方面遇到重大问题。
你问的具体是什么类型的?