应用错误收集

我正在尝试从此paper复制一个应用程序，其中作者下载20 newsgroups数据并使用SPCA提取在某种意义上最能描述文本语料库的主要组件[请参阅4.1。这是针对高维类课程，我们被要求选择一个主题并复制/应用它。

输出应该是K个主要组件，每个组件都有一个简短的单词列表，这些单词都直观地对应于某个主题（例如，论文发现第一个PC是关于政治和宗教的。）

根据我的研究，从本文重现应用程序的最佳方法似乎是使用此算法：k = i.sum(axis=1) k[k > 1] ID 1 2 dtype: int64。

我只找到了这个算法如何运作的一个例子here。

所以我的问题是：原则上是否可以按照上述链接示例中的步骤，使用文本数据从第一段中链接的文章的第4.1节中重现应用程序？

如果是，我就可以提出有关代码的更具体的问题。