据我了解,为了实现无监督的朴素贝叶斯,我们为每个实例的每个类分配随机概率,然后通过正常的朴素贝叶斯算法运行它。我理解,通过每次迭代,随机估计变得更好,但我不能确定我的生活究竟是如何工作的。
有人想关注此事吗?
答案 0 :(得分:0)
我在无监督学习中的朴素贝叶斯变体基本上是应用高斯混合模型(GMM,也称为期望最大化或EM)确定数据中的聚类。
在此设置中,假设可以对数据进行分类,但隐藏类。问题是通过为每个类拟合高斯分布来确定最可能的类。朴素贝叶斯假设定义了要使用的特定概率模型,其中属性在给定类的情况下是条件独立的。
Jose A. Gamez撰写的"Unsupervised naive Bayes for data clustering with mixtures of truncated exponentials"论文:
从以前的设置中,基于概率模型的聚类是 模拟为模型的混合(参见例如(Duda等,2001)),其中 隐藏类变量的状态对应于组件 混合物(簇的数量)和多项式 分布用于模拟离散变量而高斯分布 分布用于模拟数字变量。通过这种方式我们移动 从未标记的数据和通常是EM学习的问题 算法(Dempster等,1977)用于进行学习 当图形结构固定和结构EM时的任务 (弗里德曼,1998)当图形结构也必须如此 发现(Pena等,2000)。在本文中,我们关注的是 最简单的固定结构模型,即所谓的朴素贝叶斯 结构(图1),其中类是唯一的根变量和全部 鉴于该类,属性是有条件独立的。
另见CV.SE上的this discussion。