我是Python和NumPy的新手,并且花了几天时间寻找这个问题的答案。
考虑以下二维股票价格数组,其中第0列至第3列为开盘价,最高价,最低价和收盘价,每一行(0-6)为后续日。
O H L C 0 | 43.97 43.97 43.75 43.94 1 | 43.97 44.25 43.97 44.25 2 | 44.22 44.38 44.12 44.34 3 | 44.41 44.84 44.38 44.81 4 | 44.97 45.09 44.47 45.00 5 | 44.97 45.06 44.72 44.97 6 | 44.97 45.12 44.91 44.97
对于此示例,我将使用O,H,L或C来表示列0-3,并使用0,1或2来表示O,H的行偏移(向后), L或C.
H2表示H列的两行返回值,C0表示当前行中C列的值。所以在第3行中,H2等于44.25,C0等于44.81。
我想使用有效等同于逻辑语句C0>的条件从这种类型的数组中获取行。 H2或类似声明。最后,我希望包含这样的多个比较,以返回数组行的子集。
是否可以在不通过数组循环的情况下执行此操作?
答案 0 :(得分:2)
一般来说,你想做的事情(使用你的例子" C0> H2"):
values = data[2:][C[2:] > H[:-2]]
但是,你可以很容易地看到它是如何重复的。
因此,制作与其他数据长度相同的" H2"等新序列是最简单的。执行此操作时,您需要某种方式来指示哪些值无效或插入有效值。
处理此问题的方法不止一种(例如,不同的边界条件,屏蔽数组等)。例如,您可以决定使用最后一个有效值扩展系列。
目前,因为你有浮点阵列,所以让我们将NaN插入缺失的位置。这样,任何比较都将返回False
。
在这种情况下,您可以执行以下操作:
H2 = np.pad(H[:-2], (2, 0), mode='constant', constant_values=(np.nan,))
或更一般地说:
def shift(data, amount):
data = data[:-amount]
pad = (amount, 0)
return np.pad(data, pad, mode='constant', constant_values=(np.nan,))
这样你可以直接比较事情。例如。 H[H > shift(H, 2)]
另外,正如DSM所提到的,请考虑使用pandas
。一般来说,它会让你的生活变得更加轻松,同等的表达方式将是:
df[df.C > df.H.shift(2)]
让我们稍微打破一下。
如果我们从系列x = [0, 1, 2, 3, 4, 5]
开始,那么x[:-2]
会给我们[0, 1, 2, 3]
import numpy as np
x = np.arange(6)
x2 = x[2:]
但是,如果我们想将它与原始长度相同的其他序列进行比较,我们就会遇到问题,因为x
现在比其他序列短两个项目。
y = np.linspace(-2, -3, 6)
并比较它们会引发ValueError,因为它们的长度不同:
In [4]: x2 > y
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-22-eec160476995> in <module>()
----> 1 x2 > y
ValueError: operands could not be broadcast together with shapes (4) (6)
此外,我们不想比较新的&#34;移位&#34;的第一个值。 x带有原始序列的第一个值。我们想要比较&#34;移位&#34;的第一项。序列与原始序列的第三个项。
为此,我们还需要切片其他序列。例如。 y[2:]
:
In [5]: x2 > y[2:]
Out[5]: array([ True, True, True, True], dtype=bool)
然而,这有点笨拙。我们需要知道已经转移了多少x2
才能正确使用它。将新值插入x2
会更加容易,以便我们可以直接使用它进行索引。
在我的原始示例中,我使用np.pad
在数组的开头插入NaN
。
x2 = np.pad(x[:-2], (2, 0), mode='constant', constant_values=(np.nan,))
pad
的必要论点在这种情况下是一种尴尬。如果您不想使用np.pad
,您还可以执行类似以下操作:
x2 = np.hstack([2 * [np.nan], x[:-2]])
这两种方法的最大优点是我们有相同长度的数组,与np.nan
的任何比较都是假的。
例如:
In [9]: x2
Out[9]: array([ nan, nan, 0., 1., 2., 3.])
In [10]: x2 > -np.inf
Out[10]: array([False, False, True, True, True, True], dtype=bool)
这样可以直接与y
进行比较:
In [11]: y
Out[11]: array([-2. , -2.2, -2.4, -2.6, -2.8, -3. ])
In [12]: x2 > y
Out[12]: array([False, False, True, True, True, True], dtype=bool)
作为一个更完整的例子:
import numpy as np
def main():
data = np.array([[43.97, 43.97, 43.75, 43.94],
[43.97, 44.25, 43.97, 44.25],
[44.22, 44.38, 44.12, 44.34],
[44.41, 44.84, 44.38, 44.81],
[44.97, 45.09, 44.47, 45.00],
[44.97, 45.06, 44.72, 44.97],
[44.97, 45.12, 44.91, 44.97]])
O, H, L, C = data.T
values = data[C > shift(H, 2)]
print values
def shift(data, amount):
data = data[:-amount]
pad = (amount, 0)
return np.pad(data, pad, mode='constant', constant_values=(np.nan,))
main()
然后 values
:
[[ 44.22 44.38 44.12 44.34]
[ 44.41 44.84 44.38 44.81]
[ 44.97 45.09 44.47 45. ]
[ 44.97 45.06 44.72 44.97]]
仅显示pandas
版本:
import pandas as pd
df = pd.DataFrame([[43.97, 43.97, 43.75, 43.94],
[43.97, 44.25, 43.97, 44.25],
[44.22, 44.38, 44.12, 44.34],
[44.41, 44.84, 44.38, 44.81],
[44.97, 45.09, 44.47, 45.00],
[44.97, 45.06, 44.72, 44.97],
[44.97, 45.12, 44.91, 44.97]],
columns=['O', 'H', 'L', 'C'])
values = df[df.C > df.H.shift(2)]
print values
哪个收益率:
O H L C
2 44.22 44.38 44.12 44.34
3 44.41 44.84 44.38 44.81
4 44.97 45.09 44.47 45.00
5 44.97 45.06 44.72 44.97