应用错误收集

距离依赖中餐厅过程也许

时间：2013-11-12 16:16:36

标签： audio machine-learning cluster-analysis unsupervised-learning

我是机器学习的新手，并希望在MATLAB中实现与距离相关的中餐厅流程，以实现音轨的聚类。

我希望在26个功能上使用dd-CRP。我猜这个过程可能会像这样

读入第一个特征向量并为其指定一个“表格”
读入第二个特征向量并将其与第一个“表”进行比较，可能使用两个向量的余弦角（由于高维），如果它在某个定义的theta内同意，则加入该表，否则启动一个新的一。
读入下一个要素并重复步骤2，以获取每个现有表格的新要素向量。
在发生这种情况时，我将跟踪有多少个表。

我将运行该算法，例如16个音轨。将音频输入算法的方式是第一个特征向量将来自音轨1的第一帧，第二个特征向量来自轨道2中的第一帧等，因为我试图找出哪个音轨最喜欢聚集在一起，但我不想定义有多少质心。显然，我必须跟踪哪个音轨在哪个“桌子”。

这有意义吗？

2 个答案:

答案 0 :(得分：1)

这不是中餐厅流程。这是一种启发式算法，与中国餐馆流程有一些相似之处。在CRP中，所有内容都是根据项目到集群的分配（表格类比）的先验来表达的，并且这些与每个集群的似然函数（它们形式化您描述的相似性函数）相结合。然后通过Gibbs Sampling进行推断，这意味着非确定性地采样每个轨道被分配给哪个群集，从而给出所有其他分配。非参数的变分方法仍处于初步状态。

为什么要使用CRP？除了更传统的聚类方法之外，你认为你能从中获得一些东西吗？实现和正确理解非参数的入门标准非常高，而且由于我提到的推论限制，它们目前通常没有什么实际用途。

答案 1 :(得分：0)

您可以使用X-means算法，该算法根据贝叶斯信息准则（或BIC）自动确定质心的最佳数量（以及群集数量）。简而言之，该算法会查找每个群集的密集程度，以及每个群集与另一个群集的距离。