如何在python中建立LSTM时间序列预测模型?

时间:2019-02-07 06:50:04

标签: python keras neural-network lstm

我正在尝试构建LSTM模型,数据由date_time和一些数字值组成。拟合模型时

0d

样本数据: “ date.csv”看起来像:

$fl_blackriver = (isset($_REQUEST['fl_blackriver'])) ? $_REQUEST['fl_blackriver'] : 0;
$fl_flacq = (isset($_REQUEST['fl_flacq'])) ? $_REQUEST['fl_flacq'] : 0;
$fl_grandport = (isset($_REQUEST['fl_grandport'])) ? $_REQUEST['fl_grandport'] : 0;
$fl_moka = (isset($_REQUEST['fl_moka'])) ? $_REQUEST['fl_moka'] : 0;
$fl_pamplemousses = (isset($_REQUEST['fl_pamplemousses'])) ? $_REQUEST['fl_pamplemousses'] : 0;
$fl_plaineswilhems = (isset($_REQUEST['fl_plaineswilhems'])) ? $_REQUEST['fl_plaineswilhems'] : 0;
$fl_portlouis = (isset($_REQUEST['fl_portlouis'])) ? $_REQUEST['fl_portlouis'] : 0;
$fl_rivieredurempart = (isset($_REQUEST['fl_rivieredurempart'])) ? $_REQUEST['fl_rivieredurempart'] : 0;
$fl_savanne = (isset($_REQUEST['fl_savanne'])) ? $_REQUEST['fl_savanne'] : 0;
$fl_finalize = (isset($_REQUEST['fl_finalize'])) ? $_REQUEST['fl_finalize'] : 0;

$district = array($fl_blackriver,$fl_flacq,$fl_grandport,$fl_moka,$fl_pamplemousses,$fl_plaineswilhems,$fl_portlouis,$fl_rivieredurempart,$fl_savanne,$fl_finalize);

“ tasks.csv”看起来像:

"ValueError: Error when checking input: expected lstm_1_input to have 3 dimensions, but got array with shape (10, 1)" error.
Date

06/13/2018 07:20:04 PM

06/13/2018 07:20:04 PM

06/13/2018 07:20:04 PM

06/13/2018 07:22:12 PM

06/13/2018 07:22:12 PM

06/13/2018 07:22:12 PM

06/13/2018 07:26:20 PM

06/13/2018 07:26:20 PM

06/13/2018 07:26:20 PM

06/13/2018 07:26:20 PM

如何预测结果?

1 个答案:

答案 0 :(得分:1)

此代码示例存在一些问题。缺乏预处理,标签编码,目标编码和不正确的丢失功能。我简要介绍了可能的解决方案,但是有关更多信息和示例,您可以阅读关于时间序列和预测的tutorial

产生此ValueError的地址特定问题是:LSTM需要三维输入。它的形状是(batch_size, input_length, dimension)。因此,它至少需要输入某些值(batch_size, 1, 1)-但date.shape(10, 1)。如果您这样做

date = date.values.reshape((1, 10, 1)) 

-它可以解决这个问题,但会带来其他许多问题:

date = date.values.reshape((1, 10, 1))

model = Sequential()
model.add(LSTM(24, return_sequences=True, input_shape=(date.shape[1], 1)))
print(model.layers[-1].output_shape)
model.add(Dense(1))
model.compile(loss="mean_squared_error", optimizer="adam")
model.fit(date, task,  epochs=100,  batch_size=1,  verbose=1)
  

ValueError:输入数组应具有与目标数组相同数量的样本。找到1个输入样本和10个目标样本。

不幸的是,由于缺乏信息,所以没有其他问题的答案。但是一些通用建议。

预处理
不幸的是,您可能无法重塑,因为预测并不是那么简单。您应该根据预测下一个任务选择一些合适的对象。好消息是,有定期的测量,但是每次都有几个任务,这使任务难以解决。

功能
您应该具有预测某些特征的功能。目前尚不清楚什么是功能,但可能不是日期和时间。甚至以前的任务也可能是一项功能,但是您不能仅使用任务id,它需要一些 embedding ,因为它不是连续的数字值,而是标签。

嵌入
有一个keras.layers.Embedding可以将某些内容嵌入到keras中。

如果任务数为4(1、2、3、4)并且输出矢量的形状为,则可以使用以下方式:

model = Sequential()
model.add(Embedding(4 + 1, 10, input_length=10))  # + 1 to deal with non-zero indexing
# ... the reso of the code is omitted

-第一个参数是许多嵌入项,第二个参数是输出形状,后者是输入长度(10只是示例值)。

标签编码
任务标签可能只是一个标签,它们之间没有合理的距离或度量标准-即您不能说1比2更接近2,等等。这种情况mse是没有用的,但是幸运的是,存在一个名为categorical cross-entropy的概率损失函数,该函数可以帮助预测数据类别。

要使用它,您应该对标签进行二值化处理:

import numpy as np

def binarize(labels):
    label_map = dict(map(reversed, enumerate(np.unique(labels))))
    bin_labels = np.zeros((len(labels), len(label_map)))
    bin_labels[np.arange(len(labels)), [label_map[label] for label in labels]]  = 1
    return bin_labels, label_map

binarized_task, label_map = binarize(task)
binarized_task
Out:
array([[0., 1., 0., 0.],
        [1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [1., 0., 0., 0.],
        [0., 0., 0., 1.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]]
label_map
Out:
{1: 0, 2: 1, 3: 2, 4: 3}

-二值化标签和“ task-is在二进制标签中的位置”的集合。
当然,您应该在具有二值化标签的模型中使用交叉熵损失。另外,最后一层应使用softmax激活函数(在有关交叉熵的教程中进行了解释;不久,您将处理标签的概率,因此,应将其汇总为一个,并且softmax根据此要求修改先前的图层值):

model.add(Dense(4, activation='softmax'))
model.compile(loss="categorical_crossentropy", optimizer="adam")
model.fit(date, binarized_task, epochs=100, batch_size=1,  verbose=1)

“完成”,但可能是毫无意义的示例
此示例使用了上面列出的所有内容,但并不能假装是完整的或有用的-但我希望至少可以解释。

import datetime
import numpy as np
import pandas as pd
import keras
from keras.models import Sequential
from keras.layers import Dense, LSTM, Flatten, Embedding

# Define functions

def binarize(labels):
    """
    Labels of shape (size,) to {0, 1} array of the shape (size, n_labels)
    """
    label_map = dict(map(reversed, enumerate(np.unique(labels))))
    bin_labels = np.zeros((len(labels), len(label_map)))
    bin_labels[np.arange(len(labels)), [label_map[label] for label in labels]]  = 1
    return bin_labels, label_map


def group_chunks(df, chunk_size):
    """
    Group task date by periods, train on some columns and use lask ('Tasks') as the target. Function uses 'Tasks' as a features.
    """
    chunks = []
    for i in range(0, len(df)-chunk_size):
        chunks.append(df.iloc[i:i + chunk_size]['Tasks'])  # slice period, append 
        chunks[-1].index = list(range(chunk_size))
    df_out = pd.concat(chunks, axis=1).T  
    df_out.index = df['Date'].iloc[:(len(df) - chunk_size)]
    df_out.columns = [i for i in df_out.columns[:-1]] + ['Tasks']
    return df_out


# I modify this date for simlicity - now it's a single entry for each datetime
date = pd.DataFrame({
    "Date" : [
        "06/13/2018 07:20:00 PM",
        "06/13/2018 07:20:01 PM",
        "06/13/2018 07:20:02 PM",
        "06/13/2018 07:20:03 PM",
        "06/13/2018 07:20:04 PM",
        "06/13/2018 07:20:05 PM",
        "06/13/2018 07:20:06 PM",
        "06/13/2018 07:20:07 PM",
        "06/13/2018 07:20:08 PM",
        "06/13/2018 07:20:09 PM"]
})

task = pd.DataFrame({"Tasks": [2, 1, 2, 1, 4, 2, 3, 2, 3, 4]})
date['Tasks'] = task['Tasks']
date['Date'] = date['Date'].map(lambda x: datetime.datetime.strptime(x, "%m/%d/%Y %I:%M:%S %p"))  # formatting datetime as datetime


chunk_size = 4
df = group_chunks(date, chunk_size)
# print(df)
"""
                     0  1  2  Tasks
Date                               
2018-06-13 19:20:00  2  1  2      1
2018-06-13 19:20:01  1  2  1      4
2018-06-13 19:20:02  2  1  4      2
2018-06-13 19:20:03  1  4  2      3
2018-06-13 19:20:04  4  2  3      2
2018-06-13 19:20:05  2  3  2      3

"""
# extract the train data and target
X = df[list(range(chunk_size-1))].values
y, label_map = binarize(df['Tasks'].values)

# Create a model, compile, fit
model = Sequential()
model.add(Embedding(len(np.unique(X))+1, 24, input_length=X.shape[-1]))
model.add(LSTM(24, return_sequences=True, input_shape=(date.shape[1], 1)))
model.add(Flatten())
model.add(Dense(4, activation='softmax'))
model.compile(loss="categorical_crossentropy", optimizer="adam")
history = model.fit(X, y,  epochs=100,  batch_size=1,  verbose=1)
Out:
Epoch 1/100
6/6 [==============================] - 1s 168ms/step - loss: 1.3885
Epoch 2/100
6/6 [==============================] - 0s 5ms/step - loss: 1.3811
Epoch 3/100
6/6 [==============================] - 0s 5ms/step - loss: 1.3781
...

-等。以某种方式工作,但是我再一次建议:阅读上面的链接(或其他任何预测教程)。例如,因为在这个示例中我没有涉及测试/验证区域。