removeSparseTerms()返回一个TermDocumentMatrix,其中包含空" Terms"柱

时间:2015-03-29 12:57:07

标签: r tm

我有来自tm包的DocumentTermMatrix()命令生成的术语 - 文档矩阵。输入数据是一个带有一些Twitter条目的大文本文件。它被x = read.delim("medium_twi.txt", stringsAsFactors=F, header=F, quote = "")命令读取,然后清理\ stemmed并最终转换为术语文档矩阵。到目前为止,所有的作品都像一个魅力。

现在问题就出现了。 inspect命令表示大多数条目都是稀疏的,并且有非稀疏的684012:

> inspect(adtm)
<<DocumentTermMatrix (documents: 100000, terms: 69456)>>
Non-/sparse entries: 684012/6944915988
Sparsity           : 100%

然而,当我尝试运行时(0.1参数是任意的。我已经尝试过甚至0.00000001,看看问题是否与非稀疏条目的百分比非常低,但结果保持不变)

adtm2 <- removeSparseTerms(adtm, 0.1)

删除所有条款。

> adtm2$dimnames[2]
$Terms
NULL

我不太明白为什么会这样,肯定有一些词很常见:

> findFreqTerms(adtm, 4000)
[1] "get"  "good" "just" "like" "love" "will"

请告诉我在哪里以及我做错了什么。

0 个答案:

没有答案