使用自定义数据的sidekit训练UBM

时间:2017-05-10 14:31:11

标签: python voice-recognition gmm sidekit

我正在尝试使用SIDEKIT从已经提取的用于情感识别的数据中训练GMM-UBM模型(与说话人识别几乎相同。我也不了解HDF5特征文件系统)。我的数据是具有形状的ndarray(1101,78)[78是声学特征的数量,1101是特征向量(帧)的数量。

ubm = sidekit.Mixture()

llks = ubm.EM_uniform(anger, distribNb, iteration_min=3, iteration_max=10, llk_gain=0.01, do_init=True)

引发的错误是:

line 394, in _compute_all
    self.A = (numpy.square(self.mu) * self.invcov).sum(1) - 2.0 * (numpy.log(self.w) + numpy.log(self.cst))

ValueError: operands could not be broadcast together with shapes (512,78) (512,0)

这意味着协方差矩阵具有形状(512,0)。那是错的吗?应该是(512,78)吗?我可能错了。请给我一个提示

2 个答案:

答案 0 :(得分:3)

你可能已经弄清楚了,但我想我也可以发布一个可能的解决方案。

以下代码创建尺寸为(2,100)的随机数据,并尝试使用EM_uniform算法训练128混合gmm:

import sidekit
import numpy as np
import random as rn

gmm = sidekit.Mixture()
data = np.array([[rn.random() for i in range(100)],[rn.random() for i in range(100)]])
gmm.EM_uniform(data,
               distrib_nb=128,
               iteration_min=3,
               iteration_max=10,
               llk_gain=0.01,
               do_init=True)

但是,这会导致与您报告的错误相同: ValueError:操作数无法与形状(128,100)(128,0)

一起广播

我怀疑在Sidekit.Mixture._init_uniform()中如何计算gmm.invcov有一些错误,所以我用Sidekit.Mixture._init()的代码找出了混合的手动初始化(初始化函数)对于EM_split() - 算法)。

以下代码在我的计算机上运行时没有错误:

import sidekit
import numpy as np
import random as rn
import copy

gmm = sidekit.Mixture()
data = np.array([[rn.random() for i in range(100)],[rn.random() for i in range(100)]])

# Initialize the Mixture with code from Sidekit.Mixture._init()
mu = data.mean(0)
cov = (data**2).mean(0)
gmm.mu = mu[None]
gmm.invcov = 1./cov[None]
gmm.w = np.asarray([1.0])
gmm.cst = np.zeros(gmm.w.shape)
gmm.det = np.zeros(gmm.w.shape)
gmm.cov_var_ctl = 1.0 / copy.deepcopy(gmm.invcov)
gmm._compute_all()

# Now run EM without initialization
gmm.EM_uniform(data,
               distrib_nb=128,
               iteration_min=3,
               iteration_max=10,
               llk_gain=0.01,
               do_init=False)

这给出了以下输出: [-31.419146414931213,54.759037708692404,54.759037708692404,54.759037708692404], 这是每次迭代后的对数似然值(4次迭代后的收敛。请注意,此示例数据是小的,以便训练gmm。)

我不能保证这会导致以后出现任何错误,如果是这样的话,请留下评论!

对于HDF5文件,请查看h5py documentation获取教程。此外,hdfview允许您查看h5文件的内容,这对于稍后进行评分非常方便。

答案 1 :(得分:0)

sidekit.UBM接受的参数'feature_list'的内容是什么?

ubm=sk.Mixture()
 llk = ubm.EM_split(features_server=server,
                     feature_list=ubm_list,
                     distrib_nb=512,
                     num_thread=8,
                     save_partial=False)