Question

使用R {tm}，我的问题是一个术语以最频繁的术语出现。当我尝试检查dtm与特定术语的交叉时，我得到一个空白。 MWE在这里。在常规tm_map转换后，我有一个合适的DocumentTermMatrix。我称频率超过10的条款，如下：

> findFreqTerms(dtm4, lowfreq=10)
 [1] "bank america"      "cent stake"        "deutsche bank"    
 [4] "fibre network"     "auto industry"     "interest rates"   
 [7] "optical fibre"     "points cent"       "post offices"     
[10] "postal department" "alibaba investment"         
>

我想找出哪些文件包含“汽车行业”？我运行一个交叉，就像这样：

> inspect(dtm4[1:10, intersect(dtm4,"auto industry")]).

我收到零条目。

`<<DocumentTermMatrix (documents: 10, terms: 0)>>
Non-/sparse entries: 0/0
Sparsity           : 100%
Maximal term length: 0
Weighting          : term frequency (tf)`

交叉操作适用于unigrams;但是这个问题在将RWeka::ngrams传递给dtm时仍然存在。我正在做的事情是否有问题，或者'findFreqTerms（）`是否创建了一个特殊的（虚拟？）视图，而这种视图无法通过交叉访问？非常感谢。

R TM ngram以最常见的术语显示但无法访问

0 个答案: