Question

在我更新我的RStudio版本之前，一切都很顺利。随着更新，'tm'包中的Document Term Matrix改变了一些东西。我想创建一个dtm，但有数字。例如，如果我有一个带有一列的.csv，如下所示：

我希望我的术语矩阵中的列名称如下所示：

1.01 11.21 123.35 212.11
1    0     0      0
0    1     0      0
0    0     1      0
0    0     0      1

但它看起来像这样：

以下是以前使用的代码：

corpus = Corpus(VectorSource(x)) dtm = DocumentTermMatrix(corpus) dtm_df = as.data.frame(as.matrix(dtm))

提前致谢

Answer 1

来自'tm'软件包维护者Ingo Feinerer：

以下是以前使用的代码：

语料库=语料库（VectorSource（x））

尝试使用VCorpus（）而不是Corpus（）。

dtm = DocumentTermMatrix（语料库） dtm_df = as.data.frame（as.matrix（dtm））

这是非常低效的（因为as.matrix（）从稀疏术语 - 文档矩阵生成密集表示。）

祝你好运， INGO