通过将元素与前一行中的元素进行比较而不循环来过滤numpy数组

时间:2015-03-24 18:54:20

标签: python arrays numpy

我是Python和NumPy的新手,并且花了几天时间寻找这个问题的答案。

考虑以下二维股票价格数组,其中第0列至第3列为开盘价,最高价,最低价和收盘价,每一行(0-6)为后续日。

      O      H      L      C
0 | 43.97  43.97  43.75  43.94
1 | 43.97  44.25  43.97  44.25
2 | 44.22  44.38  44.12  44.34
3 | 44.41  44.84  44.38  44.81
4 | 44.97  45.09  44.47  45.00
5 | 44.97  45.06  44.72  44.97
6 | 44.97  45.12  44.91  44.97

对于此示例,我将使用O,H,L或C来表示列0-3,并使用0,1或2来表示O,H的行偏移(向后), L或C.

H2表示H列的两行返回值,C0表示当前行中C列的值。所以在第3行中,H2等于44.25,C0等于44.81。

我想使用有效等同于逻辑语句C0>的条件从这种类型的数组中获取行。 H2或类似声明。最后,我希望包含这样的多个比较,以返回数组行的子集。

是否可以在不通过数组循环的情况下执行此操作?

1 个答案:

答案 0 :(得分:2)

一般来说,你想做的事情(使用你的例子" C0> H2"):

values = data[2:][C[2:] > H[:-2]]

但是,你可以很容易地看到它是如何重复的。

因此,制作与其他数据长度相同的" H2"等新序列是最简单的。执行此操作时,您需要某种方式来指示哪些值无效或插入有效值。

处理此问题的方法不止一种(例如,不同的边界条件,屏蔽数组等)。例如,您可以决定使用最后一个有效值扩展系列。

目前,因为你有浮点阵列,所以让我们将NaN插入缺失的位置。这样,任何比较都将返回False

在这种情况下,您可以执行以下操作:

H2 = np.pad(H[:-2], (2, 0), mode='constant', constant_values=(np.nan,))

或更一般地说:

def shift(data, amount):
    data = data[:-amount]
    pad = (amount, 0)
    return np.pad(data, pad, mode='constant', constant_values=(np.nan,))

这样你可以直接比较事情。例如。 H[H > shift(H, 2)]


另外,正如DSM所提到的,请考虑使用pandas。一般来说,它会让你的生活变得更加轻松,同等的表达方式将是:

df[df.C > df.H.shift(2)]

详细说明

让我们稍微打破一下。

如果我们从系列x = [0, 1, 2, 3, 4, 5]开始,那么x[:-2]会给我们[0, 1, 2, 3]

import numpy as np

x = np.arange(6)
x2 = x[2:]

但是,如果我们想将它与原始长度相同的其他序列进行比较,我们就会遇到问题,因为x现在比其他序列短两个项目。

y = np.linspace(-2, -3, 6)

并比较它们会引发ValueError,因为它们的长度不同:

In [4]: x2 > y
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-22-eec160476995> in <module>()
----> 1 x2 > y

ValueError: operands could not be broadcast together with shapes (4) (6)

此外,我们不想比较新的&#34;移位&#34;的第一个值。 x带有原始序列的第一个值。我们想要比较&#34;移位&#34;的第一项。序列与原始序列的第三个​​项。

为此,我们还需要切片其他序列。例如。 y[2:]

In [5]: x2 > y[2:]
Out[5]: array([ True,  True,  True,  True], dtype=bool)

然而,这有点笨拙。我们需要知道已经转移了多少x2才能正确使用它。将新值插入x2会更加容易,以便我们可以直接使用它进行索引。

在我的原始示例中,我使用np.pad在数组的开头插入NaN

x2 = np.pad(x[:-2], (2, 0), mode='constant', constant_values=(np.nan,))  

pad的必要论点在这种情况下是一种尴尬。如果您不想使用np.pad,您还可以执行类似以下操作:

x2 = np.hstack([2 * [np.nan], x[:-2]])

这两种方法的最大优点是我们有相同长度的数组,与np.nan的任何比较都是假的。

例如:

In [9]: x2
Out[9]: array([ nan,  nan,   0.,   1.,   2.,   3.])

In [10]: x2 > -np.inf
Out[10]: array([False, False,  True,  True,  True,  True], dtype=bool)

这样可以直接与y进行比较:

In [11]: y
Out[11]: array([-2. , -2.2, -2.4, -2.6, -2.8, -3. ])

In [12]: x2 > y
Out[12]: array([False, False,  True,  True,  True,  True], dtype=bool)

实施例

作为一个更完整的例子:

import numpy as np

def main():
    data = np.array([[43.97, 43.97, 43.75, 43.94],
                     [43.97, 44.25, 43.97, 44.25],
                     [44.22, 44.38, 44.12, 44.34],
                     [44.41, 44.84, 44.38, 44.81],
                     [44.97, 45.09, 44.47, 45.00],
                     [44.97, 45.06, 44.72, 44.97],
                     [44.97, 45.12, 44.91, 44.97]])
    O, H, L, C = data.T

    values = data[C > shift(H, 2)]
    print values

def shift(data, amount):
    data = data[:-amount]
    pad = (amount, 0)
    return np.pad(data, pad, mode='constant', constant_values=(np.nan,))

main()
然后

values

[[ 44.22  44.38  44.12  44.34]
 [ 44.41  44.84  44.38  44.81]
 [ 44.97  45.09  44.47  45.  ]
 [ 44.97  45.06  44.72  44.97]]

仅显示pandas版本:

import pandas as pd

df = pd.DataFrame([[43.97, 43.97, 43.75, 43.94],
                   [43.97, 44.25, 43.97, 44.25],
                   [44.22, 44.38, 44.12, 44.34],
                   [44.41, 44.84, 44.38, 44.81],
                   [44.97, 45.09, 44.47, 45.00],
                   [44.97, 45.06, 44.72, 44.97],
                   [44.97, 45.12, 44.91, 44.97]],
                  columns=['O', 'H', 'L', 'C'])

values = df[df.C > df.H.shift(2)]
print values

哪个收益率:

       O      H      L      C
2  44.22  44.38  44.12  44.34
3  44.41  44.84  44.38  44.81
4  44.97  45.09  44.47  45.00
5  44.97  45.06  44.72  44.97