DocumentTermMatrix中的maxWordLength参数似乎没有任何效果(没有警告,没有错误)。我正在使用tm_0.6-2。 R版本3.2.2 mac。有什么想法吗?
df< - Corpus(DataframeSource(data.frame(as.character(“这是我的测试字符串,带有特别长的单词”)))) df.dtf< - DocumentTermMatrix(df,control = list(tokenize = BigramTokenizer,minWordLength = 2,maxWordLength = 4,minDocFreq = minFreq))
检查(df.dtf)
产量:
检查(df.dtf) <> 非/稀疏条目:7/0 稀疏度:0% 最大学期长度:13 加权:术语频率(tf)
Terms
Docs特别长的字符串测试用word 1 1 1 1 1 1 1 1
答案 0 :(得分:0)
这对我有用,如果我理解你是正确的,你只想“限制”你的最大字长:
df.dtf <- DocumentTermMatrix(df, control = list( wordLengths=c(1,4)))