我觉得TM包不能用bg或者go或su来绘制2个字母的单词

时间:2014-11-06 00:17:01

标签: r tm

我正在尝试进行文本挖掘..下面是代码,但令人惊讶的是,TM无法显示2个字母的单词,如bg

查看2变体的样本输出

[[1]] <>  引用警告解决方法警告线路报警警告线路被告人解决方法警告线路报警器用户控制警告后座持续故障排除坦克说泵没有battrey时间自定义outcom属于投诉电话disconect complet cust sts汽车驱动方式招待sts去工作去admitt呼叫断开船noth返回noth

---显示一个三个字母的单词

> dtm_list_harms<-DocumentTermMatrix(tdm[1],list(dictionary = c("led")))
> inspect(dtm_list_harms)
<<DocumentTermMatrix (documents: 1, terms: 1)>>
Non-/sparse entries: 1/0
Sparsity           : 0%
Maximal term length: 3
Weighting          : term frequency (tf)

    Terms
Docs led
   1   1

- 但是2个字母的单词没有..

> dtm_list_harms<-DocumentTermMatrix(tdm[1],list(dictionary = c("bg")))
> inspect(dtm_list_harms)
<<DocumentTermMatrix (documents: 1, terms: 1)>>
Non-/sparse entries: 0/1
Sparsity           : 100%
Maximal term length: 2
Weighting          : term frequency (tf)

    Terms
Docs bg
   1  0

TM软件包中的错误还是我不知道的技术? 提前致谢

1 个答案:

答案 0 :(得分:1)

请尝试以下操作(请使用现在的数据重复您的示例):

dtm_list_harms<-DocumentTermMatrix(tdm[1],list(dictionary = c("led"), ,control=list(wordLengths=c(1,Inf)))

这并不完美,但这是因为我没有太多工作要做。