我有690个句子,一个有500字的自己的术语列表,
所以我想制作文档术语矩阵,如:
我尝试在x2(1) = 1st bin
x2(2) = 1st bin
x2(3) = 2nd bin
x2(4) = 3rd bin
x2(5) = 4th bin
x2(6) = 5th bin
x2(7) = 5th bin
个软件包中使用DocumentTermMatrix
,但我找不到制作矩阵自己的单词列表的方法。我该怎么办?或者你推荐什么包或功能?
答案 0 :(得分:0)
定义您自己的停用词向量,然后删除该向量中的所有词语。
基本理念:
mystopwords <- setdiff(unique(Terms(mydtm)), mywordvect)
mycorpus <- tm_map(mycorpus, removeWords, mystopwords)
(将mycorpus转换为DTM增益...)
您必须自己了解详细信息。