我正在研究一些机器学习,我在几个地方遇到过潜在语义索引可用于特征选择。有人可以提供一个简短的,简单的解释如何做到这一点?理论上和评论代码都是理想的。它与主成分分析有何不同?
它写的是什么语言并不让我感到担心,只是我能理解代码和理论。
答案 0 :(得分:3)
LSA在概念上类似于PCA,但用于不同的设置。
PCA 的目标是将数据转换为新的,可能是维度较小的空间。例如,如果您想识别脸部并且使用640x480像素图像(即307200维空间中的矢量),您可能会尝试将这个空间减少到合理的两者 - 使计算更简单并使数据更少噪声。 PCA就是这样做的:它"旋转"你的高维空间的轴,并指定"重量"到每个新轴,这样你就可以丢掉最不重要的轴。
另一方面, LSA 用于分析单词的语义相似性。它无法处理图像,银行数据或其他一些自定义数据集。它专为文本处理而设计,专门用于术语文档矩阵。然而,这些矩阵通常被认为太大,因此它们被缩减为以与PCA非常相似的方式形成较低等级的矩阵(两者都使用SVD)。但是,此处不执行功能选择。相反,你得到的是特征向量转换。 SVD为您提供了一些变换矩阵(让我们称之为S
),它与输入向量x
相乘,在较小的空间中给出新的向量x'
,具有更重要的基础。
这个新基础是您的新功能。虽然,他们没有被选中,而是通过改变旧的,更大的基础来获得。
有关LSA的更多详细信息,只要有实施提示,请参阅this文章。