我有一组数据。我想从该数据构建一个类分发。根据学习的分布,我想得到每个数据实例的概率值。 基于这个概率值(阈值处理),我想构建一个分类器来对来自该分布的特定数据实例进行分类。
在这种情况下,假设我有50x100000的数据,其中50是每个数据实例的维度,实例数是100000.我倾向于基于此分布的高斯混合模型。
当我尝试获取实例的概率值时,我得到的值非常低。那么在这种情况下我如何构建一个clssifier?
答案 0 :(得分:1)
我认为这没有道理。例如,假设您的数据是1维的,并且假设事实是它是从bimodal distribution采样的。但是假设你没有弄清楚它来自双峰分布并且你符合正态分布。你仍然有最好的契合度,但它最适合错误的分布,事实上,没有任何一点来自该分布或任何看起来像它的分布。