我正在使用HMM进行分类。我来自维基百科Baum–Welch algorithm示例中的一个例子。希望有人可以帮助我。
示例如下:“假设我们每天中午都有一只鸡从中收集鸡蛋。现在鸡是否已经产卵用于收集取决于一些隐藏的未知因素。但是(为简单起见)假设只有两种状态决定了鸡是否产卵。“
请注意,在此示例中我们有2个不同的观察值(N和E)和2个状态(S1和S2)。
我的问题是:
我们需要多少观察/观察到的序列(或训练数据)才能最好地训练模型。有没有办法估计或测试所需的培训数据量。
答案 0 :(得分:0)
对于HMM模型中的每个变量,您需要大约10个样本。使用此经验法则,您可以轻松计算构建可靠分类器所需的样本数量。 在您的示例中,您有两个状态,导致2合2转换矩阵A = [a_00,a_01; a_10,a_11]其中a_ij是从状态S_i到S_j的转换概率。
此外,具有概率p_S1和p_S2的这些状态中的每一个都产生观察,即:如果我们处于状态S1,概率为p_S1,则鸡将产卵并且概率为1-p_S1它不会。 总共有6个变量需要估算。或多或少显而易见的是,不可能仅从两个观察中准确地估计它们。正如我之前提到的,通常假设每个变量至少需要10个样本才能准确估计变量。