按文件编号引用DTM行并保存到向量/矩阵

时间:2018-10-30 14:25:32

标签: r text-mining

如何通过文件编号引用DTM中的特定行?另外,如何将这一行另存为向量/矩阵?

调用inspect(test)

时,请参见下面DTM的输出
<<DocumentTermMatrix (documents: 247, terms: 59599)>>
Non-/sparse entries: 108783/14612170
Sparsity           : 99%
Maximal term length: 51
Weighting          : term frequency (tf)
Sample             :
      Terms
Docs   can get just know like one peopl thing 
  2242  13  16   15    4   16  12    42    17    
  2289  16   3    7    7   22  10    33     8     
  2299  14  12    2   11   16  22    12    10     
  2307  40  17   40   21   40  25    74    30    
  2339  27  20   41   11   39  22    77    18    
  2348  12   6    8   20   17   6    11    13    
  2357   9  10   17   32   47  12    14     8    
  2359  34  18   27    6   46  23    28    28    
  2382   9  11   10    6   19   8    12     4     

1 个答案:

答案 0 :(得分:0)

您可以利用文档术语矩阵具有暗名的事实。

dtm[dtm$dimnames$Docs == 2289, ]将仅返回documentid等于2289的行中的数据。要将其放入矩阵中,只需调用as.matrix

as.matrix(dtm[dtm$dimnames$Docs == 2289, ])将是1行矩阵