使用sklearn进行稀疏主成分分析

时间:2017-12-20 12:46:16

标签: python machine-learning pca

我正在尝试从此paper复制一个应用程序,其中作者下载20 newsgroups数据并使用SPCA提取在某种意义上最能描述文本语料库的主要组件[请参阅4.1。这是针对高维类课程,我们被要求选择一个主题并复制/应用它。

输出应该是K个主要组件,每个组件都有一个简短的单词列表,这些单词都直观地对应于某个主题(例如,论文发现第一个PC是关于政治和宗教的。)

根据我的研究,从本文重现应用程序的最佳方法似乎是使用此算法:k = i.sum(axis=1) k[k > 1] ID 1 2 dtype: int64

我只找到了这个算法如何运作的一个例子here

所以我的问题是:原则上是否可以按照上述链接示例中的步骤,使用文本数据从第一段中链接的文章的第4.1节中重现应用程序?

如果是,我就可以提出有关代码的更具体的问题。

0 个答案:

没有答案