R-获取documenttermmatrix中每个文档的令牌计数

时间:2017-12-03 01:23:55

标签: r matrix document term

我想这样做的原因是我可以将绝对频率转换为相对频率。很容易获得每个文档的令牌数,但是我不知道如何获得每个文档的总令牌数并同时使用它因此我可以同时为每个文档执行/总令牌数时间,有没有办法绑定rowums然后在calculstion中使用列,如果这是正确的方法吗?

由于

2 个答案:

答案 0 :(得分:0)

使用英文版 heliohost corpus 作为我的文本数据,很容易通过 quanteda 包按文档获取令牌数。




  library(readr)
 library(quanteda)
 blogFile<  - “./capstone/data/en_US.blogs.txt"
inFile&lt;  -  blogFile&#xA ; blogData&lt;  -  read_lines(blogFile)&#xA;&#xA; system.time(theText&lt;  -  corpus(blogData))&#xA;&#xA; head(summary(theText))&#xA; < /code>

...。输出为:

&#xA;&#xA;
 &gt; head(summary(theText))&#xA; Corpus由899288个文档组成,显示100个文档:&#xA;&#xA;文本类型令牌句子&#xA; text1 18 20 1&#xA; text2 6 7 1&#xA; text3 104 154 7&#xA; text4 36 43 1&#xA; text5 91 119 5&#xA; text6 13 13 1&#xA;&#xA;来源:C:/ Users / leona / gitrepos / datascience / * on x86-64 by leona&#xA;创建时间:2017年12月2日星期六20:59:23&#xA;注意: &#XA;&GT;&#XA;  
&#XA;

答案 1 :(得分:0)

谢谢。事实上,我认为我找到了一个方法,除以rowSums(dtm)。我希望这是正确的方法。