从空内存初始化ndarray时如何确定符号位?
>>> np.random.randn(3,3)
array([[-0.35557367, -0.0561576 , -1.84722985],
[ 0.89342124, -0.50871646, 1.31368413],
[ 0.0062188 , 1.62968789, 0.72367089]])
>>> np.empty((3,3))
array([[0.35557367, 0.0561576 , 1.84722985],
[0.89342124, 0.50871646, 1.31368413],
[0.0062188 , 1.62968789, 0.72367089]])
这些从空内存初始化的浮点值丢失了其符号†。为什么会这样?
† 注意:此结果取决于内存重用的实现细节。问题询问实施方案在做什么。
答案 0 :(得分:4)
numpy.empty
并未手动清除符号位或任何东西。符号位就是malloc
返回值的那些位中可能留下的任何垃圾。您看到的效果是由于在其他地方进行了numpy.absolute
呼叫。
问题是,numpy.empty
并没有重用randn
返回值的缓冲区。毕竟,由于randn
变量,empty
返回值在_
创建其数组时仍然有效。
numpy.empty
正在重用在 stringification 第一个数组的过程中创建的数组的缓冲区。我相信是this one:
def fillFormat(self, data):
# only the finite values are used to compute the number of digits
finite_vals = data[isfinite(data)]
# choose exponential mode based on the non-zero finite values:
abs_non_zero = absolute(finite_vals[finite_vals != 0])
...
看到absolute
的电话吗?就是那个。
以下是支持该结论的其他测试:
>>> a = numpy.random.randn(3, 3)
>>> b = numpy.arange(-5, 4, dtype=float)
>>> c = numpy.arange(-5, 13, 2, dtype=float)
>>> a
array([[-0.96810932, 0.86091026, -0.32675013],
[-1.23458136, 0.56151178, -0.37409982],
[-1.71348979, 0.64170792, -0.20679512]])
>>> numpy.empty((3, 3))
array([[ 0.96810932, 0.86091026, 0.32675013],
[ 1.23458136, 0.56151178, 0.37409982],
[ 1.71348979, 0.64170792, 0.20679512]])
>>> b
array([-5., -4., -3., -2., -1., 0., 1., 2., 3.])
>>> numpy.empty((3, 3))
array([[ 0.96810932, 0.86091026, 0.32675013],
[ 1.23458136, 0.56151178, 0.37409982],
[ 1.71348979, 0.64170792, 0.20679512]])
>>> c
array([ -5., -3., -1., 1., 3., 5., 7., 9., 11.])
>>> numpy.empty((3, 3))
array([[ 5., 3., 1.],
[ 1., 3., 5.],
[ 7., 9., 11.]])
>>> numpy.array([1.0, 0, 2, 3, 4, 5, 6, 7, 8, 9])
array([ 1., 0., 2., 3., 4., 5., 6., 7., 8., 9.])
>>> numpy.empty((3, 3))
array([[ 1., 2., 3.],
[ 4., 5., 6.],
[ 7., 8., 9.]])
numpy.empty
的结果受打印a
和c
的影响,而不是受那些数组创建过程的影响。 b
无效,因为它有8个非零元素。最后的array([1.0, 0, 2, ...])
之所以有效,是因为尽管它有10个元素,但恰好有9个元素不是零。
答案 1 :(得分:0)
请记住,NumPy是用C(以及某些Fortran,C ++)编写的,答案可能与Python无关,我将尝试使用一些示例来说明正在发生的事情。多语言方面使这一点非常棘手,因此您可能需要在此处检查np.empty()函数的实现:https://github.com/numpy/numpy/blob/master/numpy/matlib.py#L13
您尝试过吗:
import numpy as np
print(np.random.randn(3,3))
print(np.empty((3,3)))
我得到输出:(保留了迹象)
[[-1.13898052 0.99079467 -0.07773854]
[ 1.18519122 1.30324795 -0.38748375]
[-1.46435162 0.53163777 0.22004651]]
[[-1.13898052 0.99079467 -0.07773854]
[ 1.18519122 1.30324795 -0.38748375]
[-1.46435162 0.53163777 0.22004651]]
您会注意到行为的变化基于两件事:
例如,尝试运行以下两个示例:
# Run this over and over and you'll always get different results!
a = np.random.randn(3,3)
b = np.empty((3,3))
c = np.empty((3,3))
print(a, id(a)) # id gives memory address of array
print(b, id(b))
print(c, id(c))
输出:
[[ 0.25754195 1.13184341 -0.46048928]
[-0.80635852 0.92340661 2.08962923]
[ 0.09552521 0.14940356 0.5644782 ]] 139865678073408
[[-1.63665076 -0.41916461 0.9251386 ]
[ 2.72595838 0.10575355 -0.03555088]
[ 0.71242678 0.09749262 0.24742165]] 139865678071568
[[-0.41824453 0.66565604 1.52995102]
[ 0.8365397 0.32796832 -0.07150151]
[-0.08558753 0.96326938 -0.56601338]] 139865678072688
与
# Run this 2 or more times and b and c will always be the same!
a = np.random.randn(3,3)
b = np.empty((3,3))
c = np.empty((3,3))
>>> a, id(a) # output without using print
(array([[-0.04230878, 0.18081425, 0.36880091],
[ 0.4426956 , -1.31697583, 1.53143212],
[ 0.58197615, 0.42028897, 0.27644022]]), 139865678070528)
>>> b, id(b)
(array([[-0.41824453, 0.66565604, 1.52995102],
[ 0.8365397 , 0.32796832, -0.07150151],
[-0.08558753, 0.96326938, -0.56601338]]), 139865678048912)
>>> c, id(c) # c will have the same values as b!
(array([[-0.41824453, 0.66565604, 1.52995102],
[ 0.8365397 , 0.32796832, -0.07150151],
[-0.08558753, 0.96326938, -0.56601338]]), 139865678069888)
尝试连续多次运行以使内存有机会陷入某种模式。另外,根据运行这两个模块的顺序,您将获得不同的行为。
注意到当我们打印和不打印时“空”数组b和c的行为,我猜想使用输出时会发生某种“惰性评估”,因为内存保持“空闲”状态(即为什么c在上一个示例中获得与b相同的值), Python没有义务为实际上尚未进行内存分配的数组打印精确值(即已分配),即无符号表示,或者说除非您“使用”,否则实际上任何事情都是公平的。在我的示例中,我通过打印来“使用”数组,这也许可以解释为什么在我的第一个示例中,您看到标志在打印时得以保留。