R文本挖掘 - 转换术语文档矩阵

时间:2017-07-07 15:23:58

标签: r text-mining tm term-document-matrix rweka

我使用以下方法创建了一个双字母列表列表:

  <tr ng-repeat="i in ctrl.data" >
      <td>
         <div ng-show="i.category == 'default'">
             none
         </div>
         <div ng-show="i.category != 'default'">
            {{ i.category }}
         </div>
      </td>
  </tr>

我正在尝试计算每个bigram出现的文档数量。如果我理解正确,Term Document Matrix将给出每个bigram在文档中出现的次数。但我只是需要 &#39; 1&#39; - 存在于文档中 &#39; 0&#39; - 不在那里。

如何将Term Document Matrix转换为数据框或矩阵以便能够获得此类数据?

1 个答案:

答案 0 :(得分:0)

TDM是来自slam包的simple_triplet_matrix。对于常见的操作行row / colSums有一些功能。

slam::row_sums(tdm_a.bigram>=1)

这应该告诉你每个二元组包含多少文件。