使用R {tm},我的问题是一个术语以最频繁的术语出现。当我尝试检查dtm与特定术语的交叉时,我得到一个空白。 MWE在这里。在常规tm_map转换后,我有一个合适的DocumentTermMatrix
。我称频率超过10的条款,如下:
> findFreqTerms(dtm4, lowfreq=10)
[1] "bank america" "cent stake" "deutsche bank"
[4] "fibre network" "auto industry" "interest rates"
[7] "optical fibre" "points cent" "post offices"
[10] "postal department" "alibaba investment"
>
我想找出哪些文件包含“汽车行业”?我运行一个交叉,就像这样:
> inspect(dtm4[1:10, intersect(dtm4,"auto industry")]).
我收到零条目。
`<<DocumentTermMatrix (documents: 10, terms: 0)>>
Non-/sparse entries: 0/0
Sparsity : 100%
Maximal term length: 0
Weighting : term frequency (tf)`
交叉操作适用于unigrams;但是这个问题在将RWeka::ngrams
传递给dtm
时仍然存在。我正在做的事情是否有问题,或者'findFreqTerms()`是否创建了一个特殊的(虚拟?)视图,而这种视图无法通过交叉访问?
非常感谢。