R - 如何将比较和最高级别的后缀视为相同的词干

时间:2015-01-30 08:07:15

标签: r statistics nlp tm

当我生成DocumentTermMatrix或TermDocumentMatrix对象并启用它们的Stemwords功能时,它不会将比较或最高级的后缀词统计为同一个词。更重,最重的并不重。

这是我的榜样:

library(RTextTools)
library(topicmodels)
library(tm)

data <- c("I'm having trouble with superlative and comparative suffixes", 
             "Heaviest.",
            "this is heavy heavier.")

matrix <- create_matrix(data, language="english", toLower = TRUE, removeNumbers=TRUE, stemWords=TRUE, removePunctuation = TRUE, removeStopwords = TRUE, weighting=weightTf)
inspect(matrix)
colnames(matrix) 

这是输出:

>.....
Terms
Docs compar heavi heavier heaviest suffix superl troubl
   1      1     0       0        0      1      1      1
   2      0     0       0        1      0      0      0
   3      0     1       1        0      0      0      0

> colnames(matrix) 
[1] "compar"   "heavi"    "heavier"  "heaviest" "suffix"   "superl"   "troubl"  

我正在寻找的理想输出不仅仅是#34;更重的&#34;和#34;最重的&#34;与&#34; heavyi&#34;相同,但是&#34; Heavi&#34;在第二个文档中显示一次,在最后一个文档中显示两次。

我尝试启用和禁用词干,removeStopwords,min / maxwordlength标志。最小/最大字长度适用于更大的单词,但它仍然没有计算#34;最重的&#34; as&#34; heavy&#34;在术语矩阵中。阻止rTextTools似乎使用了Porter的算法。 (参考:http://www.inside-r.org/packages/cran/RTextTools/docs/create_matrix

我想最终生成一个DocumentTermMatrix,所以我一直在努力操作矩阵并尝试对数据本身做什么样的预处理。但到目前为止没有运气。

提前致谢!

0 个答案:

没有答案