应用错误收集

我正在使用HMM进行分类。我来自维基百科Baum–Welch algorithm示例中的一个例子。希望有人可以帮助我。

示例如下：“假设我们每天中午都有一只鸡从中收集鸡蛋。现在鸡是否已经产卵用于收集取决于一些隐藏的未知因素。但是（为简单起见）假设只有两种状态决定了鸡是否产卵。“

请注意，在此示例中我们有2个不同的观察值（N和E）和2个状态（S1和S2）。

我的问题是：

我们需要多少观察/观察到的序列（或训练数据）才能最好地训练模型。有没有办法估计或测试所需的培训数据量。

对于HMM模型中的每个变量，您需要大约10个样本。使用此经验法则，您可以轻松计算构建可靠分类器所需的样本数量。在您的示例中，您有两个状态，导致2合2转换矩阵A = [a_00，a_01; a_10，a_11]其中a_ij是从状态S_i到S_j的转换概率。

此外，具有概率p_S1和p_S2的这些状态中的每一个都产生观察，即：如果我们处于状态S1，概率为p_S1，则鸡将产卵并且概率为1-p_S1它不会。总共有6个变量需要估算。或多或少显而易见的是，不可能仅从两个观察中准确地估计它们。正如我之前提到的，通常假设每个变量至少需要10个样本才能准确估计变量。