将Python序列(时间序列/数组)拆分为具有重叠的子序列

时间:2015-01-09 01:07:26

标签: python performance numpy pandas time-series

我需要提取给定窗口的时间序列/数组的所有子序列。例如:

>>> ts = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> window = 3
>>> subsequences(ts, window)
array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6],
       [5, 6, 7],
       [5, 7, 8],
       [6, 8, 9]])

迭代序列的朴素方法当然很昂贵,例如:

def subsequences(ts, window):
    res = []
    for i in range(ts.size - window + 1):
        subts = ts[i:i+window]
        subts.reset_index(drop=True, inplace=True)
        subts.name = None
        res.append(subts)
    return pd.DataFrame(res)

我找到了一种更好的方法,通过复制序列,将其移动不同的值直到覆盖窗口,然后用reshape分割不同的序列。性能大约好100倍,因为for循环迭代窗口大小,而不是序列大小:

def subsequences(ts, window):
    res = []
    for i in range(window):
        subts = ts.shift(-i)[:-(ts.size%window)].reshape((ts.size // window, window))
        res.append(subts)
    return pd.DataFrame(np.concatenate(res, axis=0))

我已经看到pandas在pandas.stats.moment模块中包含了几个滚动函数,我猜他们所做的事情在某种程度上类似于子序列问题。该模块中的任何地方,或者熊猫中的其他任何地方都可以提高效率吗?

谢谢!

更新(解决方案):

根据@elyase的答案,对于这个具体案例,实现稍微简单一点,让我在这里写下来,并解释它在做什么:

def subsequences(ts, window):
    shape = (ts.size - window + 1, window)
    strides = ts.strides * 2
    return np.lib.stride_tricks.as_strided(ts, shape=shape, strides=strides)

给定1-D numpy数组,我们首先计算结果数组的形状。我们将从数组的每个位置开始一行,除了最后几个元素之外,启动它们不会在完成窗口旁边有足够的元素。

参见本说明书的第一个例子,我们开始的最后一个数字是6,因为从7开始,我们无法创建一个包含三个元素的窗口。因此,行数是大小减去窗口加一。列数就是窗口。

接下来,棘手的部分是告诉我们如何用我们刚刚定义的形状填充结果数组。

我们要考虑第一个元素是第一个元素。然后我们需要指定两个值(在两个整数的元组中作为参数strides的参数)。这些值指定了我们需要在原始数组中执行的步骤(1-D)以填充第二个(2-D)。

考虑一个不同的例子,我们想要实现np.reshape函数,从9个元素的1-D数组到3x3数组。第一个元素填充第一个位置,然后,右边的一个元素将成为1-D数组的下一个元素,因此我们移动 1步。然后,棘手的部分,要填充第二行的第一个元素,我们应该做3个步骤,从0到4,见:

>>> original = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8])
>>> new = array([[0, 1, 2],
                 [3, 4, 5],
                 [6, 7, 8])]

因此,对于reshape,我们对这两个维度的步骤为(1, 3)。对于我们的情况,它存在重叠,实际上更简单。当我们向右移动以填充结果数组时,我们从1-D数组中的下一个位置开始,当我们向右移动时,我们再次获得下一个元素,即1-D数组中的1步。因此,步骤为(1, 1)

最后要注意的是最后一件事。 strides参数不接受"步骤"我们使用过,而是内存中的字节。要了解它们,我们可以使用numpy数组的strides方法。它返回一个带有步幅的元组(以字节为单位的步骤),每个维度有一个元素。在我们的例子中,我们得到一个1元素元组,我们想要它两次,所以我们得到* 2

np.lib.stride_tricks.as_strided函数使用所描述的方法执行填充,而无需复制数据,这使得它非常有效。

最后,请注意,此处发布的函数假定为1-D输入数组(与2-D数组不同,其中1个元素为行或列)。请参阅输入数组的shape方法,您应该得到类似(N, )而不是(N, 1)的内容。这种方法会对后者失败。请注意,@ elyase发布的方法处理二维输入数组(这就是为什么这个版本稍微简单一点)。

3 个答案:

答案 0 :(得分:9)

这比我的机器中的快速版本快34倍:

def rolling_window(a, window):
    shape = a.shape[:-1] + (a.shape[-1] - window + 1, window)
    strides = a.strides + (a.strides[-1],)
    return np.lib.stride_tricks.as_strided(a, shape=shape, strides=strides)

>>> rolling_window(ts.values, 3)
array([[0, 1, 2],
      [1, 2, 3],
      [2, 3, 4],
      [3, 4, 5],
      [4, 5, 6],
      [5, 6, 7],
      [6, 7, 8],
      [7, 8, 9]])

信用转到Erik Rigtorp

答案 1 :(得分:0)

值得注意的是,在处理转换后的数组时,跨步技巧可能会产生意想不到的后果。这是有效的,因为它无需创建原始数组的副本即可修改内存指针。如果您更新返回数组中的任何值,则会更改原始数组中的值,反之亦然。

l = np.asarray([1,2,3,4,5,6,7,8,9])
_ = rolling_window(l, 3)
print(_)
array([[1, 2, 3],
   [2, 3, 4],
   [3, 4, 5],
   [4, 5, 6],
   [5, 6, 7],
   [6, 7, 8],
   [7, 8, 9]])

_[0,1] = 1000
print(_)
array([[   1, 1000,    3],
   [1000,    3,    4],
   [   3,    4,    5],
   [   4,    5,    6],
   [   5,    6,    7],
   [   6,    7,    8],
   [   7,    8,    9]])

# create new matrix from original array
xx = pd.DataFrame(rolling_window(l, 3))
# the updated values are still updated
print(xx)
      0     1  2
0     1  1000  3
1  1000     3  4
2     3     4  5
3     4     5  6
4     5     6  7
5     6     7  8
6     7     8  9

# change values in xx changes values in _ and l
xx.loc[0,1] = 100
print(_)
print(l)
[[  1 100   3]
 [100   3   4]
 [  3   4   5]
 [  4   5   6]
 [  5   6   7]
 [  6   7   8]
 [  7   8   9]]
[  1 100   3   4   5   6   7   8   9]

# make a dataframe copy to avoid unintended side effects
new = xx.copy()
# changing values in new won't affect l, _, or xx

xx_l中更改的任何值都会显示在其他变量中,因为它们在内存中都是相同的对象。

有关更多详细信息,请参见numpy文档:numpy.lib.stride_tricks.as_strided

答案 2 :(得分:0)

我想指出的是,PyTorch为该问题提供了一个功能,与使用Torch张量时,其存储效率与当前最佳解决方案一样高,但更简单,更通用(即,与多个张量一起使用时)尺寸):

# Import packages
import torch
import pandas as pd
# Create array and set window size
ts = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
window = 3
# Create subsequences with converting to/from Tensor
ts_torch = torch.from_numpy(ts.values)  # convert to torch Tensor
ss_torch = ts_torch.unfold(0, window, 1) # create subsequences in-memory
ss_numpy = ss_torch.numpy() # convert Tensor back to numpy (obviously now needs more memory)
# Or just in a single line:
ss_numpy = torch.from_numpy(ts.values).unfold(0, window, 1).numpy()

要点是unfold函数,有关详细说明,请参见PyTorch docs。如果您可以直接使用PyTorch张量,则可能不需要转换回numpy-在这种情况下,解决方案与内存效率一样。在我的用例中,我发现首先使用Torch张量创建子序列(并进行其他预处理),然后在需要时在这些张量上使用.numpy()转换为numpy更加容易。