r:maxWordLength中的DocumentTermMatrix不起作用?

时间:2016-03-23 05:27:48

标签: sparse-matrix tm

DocumentTermMatrix中的maxWordLength参数似乎没有任何效果(没有警告,没有错误)。我正在使用tm_0.6-2。 R版本3.2.2 mac。有什么想法吗?

df< - Corpus(DataframeSource(data.frame(as.character(“这是我的测试字符串,带有特别长的单词”)))) df.dtf< - DocumentTermMatrix(df,control = list(tokenize = BigramTokenizer,minWordLength = 2,maxWordLength = 4,minDocFreq = minFreq))

检查(df.dtf)

产量:

  

检查(df.dtf)   <>   非/稀疏条目:7/0   稀疏度:0%   最大学期长度:13   加权:术语频率(tf)

Terms

Docs特别长的字符串测试用word    1 1 1 1 1 1 1 1

1 个答案:

答案 0 :(得分:0)

这对我有用,如果我理解你是正确的,你只想“限制”你的最大字长:

df.dtf <- DocumentTermMatrix(df, control = list( wordLengths=c(1,4)))