如何使用我自己的术语列表创建文档术语矩阵?

时间:2016-08-02 05:58:41

标签: r text-mining tm

我有690个句子,一个有500字的自己的术语列表,

所以我想制作文档术语矩阵,如:

enter image description here

我尝试在x2(1) = 1st bin x2(2) = 1st bin x2(3) = 2nd bin x2(4) = 3rd bin x2(5) = 4th bin x2(6) = 5th bin x2(7) = 5th bin 个软件包中使用DocumentTermMatrix,但我找不到制作矩阵自己的单词列表的方法。我该怎么办?或者你推荐什么包或功能?

1 个答案:

答案 0 :(得分:0)

定义您自己的停用词向量,然后删除该向量中的所有词语。

基本理念:

mystopwords <- setdiff(unique(Terms(mydtm)), mywordvect)

mycorpus <- tm_map(mycorpus, removeWords, mystopwords)

(将mycorpus转换为DTM增益...)

您必须自己了解详细信息。