应用错误收集

EM的公平基准测试很难。很难。

初始化通常会涉及随机，并且可能会非常不同。据我所知，R实现默认使用层次聚类来查找初始聚类。它来自O（n ^ 2）内存，最有可能是O（n ^ 3）运行时成本。在我的基准测试中，由于这个原因，R会耗尽内存。我假设有一种方法可以指定初始聚类中心/模型。随机对象初始化当然会快得多。可能k-means ++是在实践中选择初始中心的好方法。
EM理论上永远不会终止。它只是在某个时刻不再有太大变化，因此你可以设置一个停止的阈值。但是，停止阈值的确切定义会有所不同。
存在各种模型变体。仅使用模糊分配（例如Fuzzy-c-means）的方法当然要比使用具有covaraince矩阵的多元高斯混合模型的实现快得多。特别是具有更高的维度。协方差矩阵也需要O（k * d ^ 2）存储器，并且反演将花费O（k * d ^ 3）时间，因此显然不适合 text 数据。
数据可能适合也可能不适合。如果在实际具有高斯聚类的数据集上运行EM，它通常比在不提供良好拟合的数据集上运行得更好。当没有合适的时候，即使使用相同的实现，你也会在运行时看到很大的差异。

对于启动器，尝试使用不同的初始化多次运行自己的算法，并检查运行时的差异。与总运行时间相比，方差有多大？

您可以尝试针对ELKI中的EM实现进行基准测试。但我怀疑实现是否适用于稀疏数据，如文本 - 数据不是高斯数据，它不适合基准测试。因此，很可能根本无法处理数据。这是预期的，可以从理论上解释。尝试找到密集的数据集，并且可以预期有多个高斯集群（对不起，我不能在这里给你很多建议。经典的Iris和Old Faithful数据集也是如此小的，可用于基准测试。

比较期望最大化时间表现的框架

1 个答案: