在我更新我的RStudio版本之前,一切都很顺利。随着更新,'tm'包中的Document Term Matrix改变了一些东西。我想创建一个dtm,但有数字。例如,如果我有一个带有一列的.csv,如下所示:
x
1.01
11.21
123.35
212.11
我希望我的术语矩阵中的列名称如下所示:
1.01 11.21 123.35 212.11
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
但它看起来像这样:
123 212
0 0
0 0
1 0
0 1
以下是以前使用的代码:
corpus = Corpus(VectorSource(x))
dtm = DocumentTermMatrix(corpus)
dtm_df = as.data.frame(as.matrix(dtm))
提前致谢
答案 0 :(得分:1)
来自'tm'软件包维护者Ingo Feinerer:
以下是以前使用的代码:
语料库=语料库(VectorSource(x))
尝试使用VCorpus()而不是Corpus()。
dtm = DocumentTermMatrix(语料库) dtm_df = as.data.frame(as.matrix(dtm))
这是非常低效的(因为as.matrix()从稀疏术语 - 文档矩阵生成密集表示。)
祝你好运, INGO