algorithm - 潜在语义索引（LSI）是统计分类算法吗？

时间：2009-10-27 22:40:44

标签： algorithm semantic-web information-retrieval classification

潜在语义索引（LSI）是统计分类算法吗？为什么或者为什么不？

基本上，我试图找出为什么the Wikipedia page for Statistical Classification没有提到LSI。我刚刚开始讨论这些问题，我试图了解所有不同的分类方法是如何相互关联的。

答案 0 :(得分：5)

不，他们并不完全相同。统计分类旨在尽可能干净地将项目分类 - 例如，对项目X是否更像是A组或B组中的项目做出清晰的决定。

LSI旨在显示项目相似或不同的程度，主要是查找与指定项目具有相似程度的项目。虽然这是类似的，但它并不完全相同。

答案 1 :(得分：3)

LSI / LSA最终是降维的技术，通常与最近邻算法结合使其成为分类系统。因此，它本身就是一种使用SVD以较低维度“索引”数据的方式。

答案 2 :(得分：1)

您是否了解过LSI on Wikipedia？它说它使用矩阵分解（SVD），而后者有时也用于分类。

答案 3 :(得分：1)

机器学习的主要区别在于“监督”和“无监督”建模。

通常，“统计分类”一词指的是监督模型，但并非总是如此。

通过监督方法，训练集包含一个“地面实况”标签，您可以构建一个模型进行预测。在评估模型时，目标是预测真实标签的最佳猜测（或概率分布），这在评估时是不会的。通常有一个绩效指标，而且很清楚正确与错误的答案是什么。

无监督分类方法试图将大量数据点聚类成较少数量的“相似”类别，这些数据点可能看起来以复杂的方式变化。每个类别中的数据应该以某种“有趣”或“深入”的方式相似。由于没有“基本事实”，你无法评估“对或错”，而是“更多”与“不那么”有趣或有用。

类似的评估时间你可以将新的例子放入可能的一个集群中（清晰的分类）或者给出某种加权来量化集群的“原型”之类的相似或不同。

因此，在某些方面，有监督和无监督的模型可以产生一些“预测”，预测类/集群标签，但它们本质上是不同的。

无监督模型的目标通常是为后续的监督模型提供更智能，更强大的紧凑输入。