文档术语矩阵不会保留数字的小数位

时间:2017-03-14 01:22:00

标签: r text-mining corpus term-document-matrix

在我更新我的RStudio版本之前,一切都很顺利。随着更新,'tm'包中的Document Term Matrix改变了一些东西。我想创建一个dtm,但有数字。例如,如果我有一个带有一列的.csv,如下所示:

x
1.01
11.21
123.35
212.11

我希望我的术语矩阵中的列名称如下所示:

1.01 11.21 123.35 212.11
1    0     0      0
0    1     0      0
0    0     1      0
0    0     0      1

但它看起来像这样:

123 212
0   0
0   0
1   0
0   1

以下是以前使用的代码:

corpus = Corpus(VectorSource(x)) dtm = DocumentTermMatrix(corpus) dtm_df = as.data.frame(as.matrix(dtm))

提前致谢

1 个答案:

答案 0 :(得分:1)

来自'tm'软件包维护者Ingo Feinerer:

以下是以前使用的代码:

语料库=语料库(VectorSource(x))

  

尝试使用VCorpus()而不是Corpus()。

dtm = DocumentTermMatrix(语料库) dtm_df = as.data.frame(as.matrix(dtm))

  

这是非常低效的(因为as.matrix()从稀疏术语 - 文档矩阵生成密集表示。)

祝你好运, INGO