我正在尝试从此paper复制一个应用程序,其中作者下载20 newsgroups数据并使用SPCA提取在某种意义上最能描述文本语料库的主要组件[请参阅4.1。这是针对高维类课程,我们被要求选择一个主题并复制/应用它。
输出应该是K个主要组件,每个组件都有一个简短的单词列表,这些单词都直观地对应于某个主题(例如,论文发现第一个PC是关于政治和宗教的。)
根据我的研究,从本文重现应用程序的最佳方法似乎是使用此算法:k = i.sum(axis=1)
k[k > 1]
ID
1 2
dtype: int64
。
我只找到了这个算法如何运作的一个例子here。
所以我的问题是:原则上是否可以按照上述链接示例中的步骤,使用文本数据从第一段中链接的文章的第4.1节中重现应用程序?
如果是,我就可以提出有关代码的更具体的问题。