Question

我想以下列方式分离数据集：

import pandas as pd
import numpy as np

df = pd.read_csv("https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv")

sepal_length = df["sepal_length"]
sepal_length

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

我想创建另一个数据集，尝试根据之前的 10 个观察结果预测这些值（假设该数据集是有序的并且依赖于日期）。

因此，对于我的预测变量，我希望有另一个数据集，其中每个索引都有 10 个先前的值。这是：

10    x0 x1 x2 x3 x4 x5 x6 x7 x8 x9
11    x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
...

其中 $ x_i $ 是第 i 个索引处的萼片长度。

Answer 1

这就是你想要的：

for i in range(1,11):
    df[f'feature_{i}']=df['sepal_length'].shift(i)

带熊猫的滚动窗口

1 个答案: