距离依赖中餐厅过程也许

时间:2013-11-12 16:16:36

标签: audio machine-learning cluster-analysis unsupervised-learning

我是机器学习的新手,并希望在MATLAB中实现与距离相关的中餐厅流程,以实现音轨的聚类。

我希望在26个功能上使用dd-CRP。我猜这个过程可能会像这样

  • 读入第一个特征向量并为其指定一个“表格”
  • 读入第二个特征向量并将其与第一个“表”进行比较,可能使用两个向量的余弦角(由于高维),如果它在某个定义的theta内同意,则加入该表,否则启动一个新的一。
  • 读入下一个要素并重复步骤2,以获取每个现有表格的新要素向量。
  • 在发生这种情况时,我将跟踪有多少个表。

我将运行该算法,例如16个音轨。将音频输入算法的方式是第一个特征向量将来自音轨1的第一帧,第二个特征向量来自轨道2中的第一帧等,因为我试图找出哪个音轨最喜欢聚集在一起,但我不想定义有多少质心。显然,我必须跟踪哪个音轨在哪个“桌子”。

这有意义吗?

2 个答案:

答案 0 :(得分:1)

这不是中餐厅流程。这是一种启发式算法,与中国餐馆流程有一些相似之处。在CRP中,所有内容都是根据项目到集群的分配(表格类比)的先验来表达的,并且这些与每个集群的似然函数(它们形式化您描述的相似性函数)相结合。然后通过Gibbs Sampling进行推断,这意味着非确定性地采样每个轨道被分配给哪个群集,从而给出所有其他分配。非参数的变分方法仍处于初步状态。

为什么要使用CRP?除了更传统的聚类方法之外,你认为你能从中获得一些东西吗?实现和正确理解非参数的入门标准非常高,而且由于我提到的推论限制,它们目前通常没有什么实际用途。

答案 1 :(得分:0)

您可以使用X-means算法,该算法根据贝叶斯信息准则(或BIC)自动确定质心的最佳数量(以及群集数量)。简而言之,该算法会查找每个群集的密集程度,以及每个群集与另一个群集的距离。