R TM ngram以最常见的术语显示但无法访问

时间:2016-07-01 14:59:08

标签: r text-mining tm

使用R {tm},我的问题是一个术语以最频繁的术语出现。当我尝试检查dtm与特定术语的交叉时,我得到一个空白。 MWE在这里。在常规tm_map转换后,我有一个合适的DocumentTermMatrix。我称频率超过10的条款,如下:

> findFreqTerms(dtm4, lowfreq=10)
 [1] "bank america"      "cent stake"        "deutsche bank"    
 [4] "fibre network"     "auto industry"     "interest rates"   
 [7] "optical fibre"     "points cent"       "post offices"     
[10] "postal department" "alibaba investment"         
>

我想找出哪些文件包含“汽车行业”?我运行一个交叉,就像这样:

> inspect(dtm4[1:10, intersect(dtm4,"auto industry")]).

我收到零条目。

`<<DocumentTermMatrix (documents: 10, terms: 0)>>
Non-/sparse entries: 0/0
Sparsity           : 100%
Maximal term length: 0
Weighting          : term frequency (tf)`

交叉操作适用于unigrams;但是这个问题在将RWeka::ngrams传递给dtm时仍然存在。我正在做的事情是否有问题,或者'findFreqTerms()`是否创建了一个特殊的(虚拟?)视图,而这种视图无法通过交叉访问? 非常感谢。

0 个答案:

没有答案