Question

我有来自tm包的DocumentTermMatrix（）命令生成的术语 - 文档矩阵。输入数据是一个带有一些Twitter条目的大文本文件。它被x = read.delim("medium_twi.txt", stringsAsFactors=F, header=F, quote = "")命令读取，然后清理\ stemmed并最终转换为术语文档矩阵。到目前为止，所有的作品都像一个魅力。

现在问题就出现了。 inspect命令表示大多数条目都是稀疏的，并且有非稀疏的684012：

> inspect(adtm)
<<DocumentTermMatrix (documents: 100000, terms: 69456)>>
Non-/sparse entries: 684012/6944915988
Sparsity           : 100%

然而，当我尝试运行时（0.1参数是任意的。我已经尝试过甚至0.00000001，看看问题是否与非稀疏条目的百分比非常低，但结果保持不变）

adtm2 <- removeSparseTerms(adtm, 0.1)

删除所有条款。

> adtm2$dimnames[2]
$Terms
NULL

我不太明白为什么会这样，肯定有一些词很常见：

> findFreqTerms(adtm, 4000)
[1] "get"  "good" "just" "like" "love" "will"

请告诉我在哪里以及我做错了什么。

removeSparseTerms（）返回一个TermDocumentMatrix，其中包含空＆＃34; Terms＆＃34;柱

0 个答案: