格式化hmmlearn的数据

时间:2016-01-15 17:23:58

标签: python hidden-markov-models hmmlearn

我正在尝试在python中使用hmmlearn来拟合隐藏的Markov模型。我假设我的数据格式不正确,但文档对于hmmlearn来说很轻松。直观地说,我会将数据格式化为n_observations x n_time_points x n_features的三维数组,但是hmmlearn似乎想要一个二维数组。

import numpy as np
from hmmlearn import hmm
X = np.random.rand(10,5,3)
clf = hmm.GaussianHMM(n_components=3, n_iter=10)
clf.fit(X)

出现以下错误:

ValueError: Found array with dim 3. Estimator expected <= 2.

有谁知道如何格式化数据以构建我之后的HMM?

2 个答案:

答案 0 :(得分:3)

注意:以下所有内容均与当前未发布的hmmlearn版本0.2.0相关。 PyPI上提供的0.1.0版使用了从sklearn.hmm继承的不同API。

要将模型fit转换为多个序列,您必须提供两个数组:

  • X ---所有序列数据的串联,
  • lengths ---一系列序列长度。

我将尝试用一个例子说明这些约定。考虑两个1D序列

X1 = [1, 2, 0, 1, 1]
X2 = [42, 42]

要将两个序列传递给.fit方法,我们需要先将它们连接成一个数组,然后计算一个长度数组

X = np.append(X1, X2)
lengths = [len(X1), len(X2)]

答案 1 :(得分:0)

在单个时间序列观察的情况下,hmmlearn拟合方法期望数据在2-d列向量中,可以使用重塑(-1,1)获得:

X = np.array([1, 1, 0, -1, -1])
model = hmm.GaussianHMM(n_components=2, n_iter=100)
model.fit(X.reshape(-1,1))