R在stemCompletion中的警告和TermDocumentMatrix

时间:2015-05-19 09:31:16

标签: r text-mining tm

我遵循了here

的指示

幻灯片编号9 tolower在包tm 0.6及以上版本中有问题我用过

myCorpus <- tm_map(myCorpus, content_transformer(tolower)

它与此stackoverflow重复 但是在运行stemCompletion时仍然会出错

myCorpus <- tm_map(myCorpus, stemCompletion, dictionary = myCorpusCopy)

我将instruction变量myCorpus和myCorpusCopy跟踪到PlainTextDocument

corpus <- tm_map(corpus, PlainTextDocument)

我能够执行

myCorpus <- tm_map(myCorpus, stemCompletion, dictionary = myCorpusCopy)

但我收到了50条警告

  

有50个或更多警告(使用警告()查看前50个)       警告()

我得到了所有50个警告:

  

1:在grep中(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数   &#39;模式&#39;长度> 1,只使用第一个元素2:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素3:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素4:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素5:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素6:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素7:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素8:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素9:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素10:In   grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39;   长度> 1,只使用第一个元素

我尝试忽略警告并创建TermDocumentMatrix()

tdm <- TermDocumentMatrix(myCorpus, control = list(wordLengths = c(1,   
Inf)))

我收到错误:

Error: inherits(doc, "TextDocument") is not TRUE

1 个答案:

答案 0 :(得分:2)

以下是如何创建词干术语 - 文档矩阵并在之后重新完成词干标记:

txt <- " was followed the instruction from here In slide no. 9 tolower has issue in package tm 0.6 and above I have used "
myCorpus <- Corpus(VectorSource(txt))
myCorpus <- tm_map(myCorpus, content_transformer(tolower))
tdm <- TermDocumentMatrix(myCorpus, control = list(stemming = TRUE)) 
cbind(stems = rownames(tdm), completed = stemCompletion(rownames(tdm), myCorpus))  
#          stems      completed    
# 0.6      "0.6"      "0.6"        
# abov     "abov"     "above"      
# and      "and"      "and"        
# follow   "follow"   "followed"   
# from     "from"     "from"       
# has      "has"      "has"        
# have     "have"     "have"       
# here     "here"     "here"       
# instruct "instruct" "instruction"
# issu     "issu"     "issue"      
# no.      "no."      "no."        
# packag   "packag"   "package"    
# slide    "slide"    "slide"      
# the      "the"      "the"        
# tolow    "tolow"    "tolower"    
# use      "use"      "used"       
# was      "was"      "was"