我遵循了here
的指示幻灯片编号9 tolower在包tm 0.6及以上版本中有问题我用过
myCorpus <- tm_map(myCorpus, content_transformer(tolower)
它与此stackoverflow重复 但是在运行stemCompletion时仍然会出错
myCorpus <- tm_map(myCorpus, stemCompletion, dictionary = myCorpusCopy)
我将instruction变量myCorpus和myCorpusCopy跟踪到PlainTextDocument
corpus <- tm_map(corpus, PlainTextDocument)
我能够执行
myCorpus <- tm_map(myCorpus, stemCompletion, dictionary = myCorpusCopy)
但我收到了50条警告
有50个或更多警告(使用警告()查看前50个) 警告()
我得到了所有50个警告:
1:在grep中(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数 &#39;模式&#39;长度> 1,只使用第一个元素2:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素3:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素4:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素5:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素6:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素7:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素8:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素9:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素10:In grep(sprintf(&#34; ^%s&#34;,w),字典,值= TRUE):参数&#39;模式&#39; 长度> 1,只使用第一个元素
我尝试忽略警告并创建TermDocumentMatrix()
tdm <- TermDocumentMatrix(myCorpus, control = list(wordLengths = c(1,
Inf)))
我收到错误:
Error: inherits(doc, "TextDocument") is not TRUE
答案 0 :(得分:2)
以下是如何创建词干术语 - 文档矩阵并在之后重新完成词干标记:
txt <- " was followed the instruction from here In slide no. 9 tolower has issue in package tm 0.6 and above I have used "
myCorpus <- Corpus(VectorSource(txt))
myCorpus <- tm_map(myCorpus, content_transformer(tolower))
tdm <- TermDocumentMatrix(myCorpus, control = list(stemming = TRUE))
cbind(stems = rownames(tdm), completed = stemCompletion(rownames(tdm), myCorpus))
# stems completed
# 0.6 "0.6" "0.6"
# abov "abov" "above"
# and "and" "and"
# follow "follow" "followed"
# from "from" "from"
# has "has" "has"
# have "have" "have"
# here "here" "here"
# instruct "instruct" "instruction"
# issu "issu" "issue"
# no. "no." "no."
# packag "packag" "package"
# slide "slide" "slide"
# the "the" "the"
# tolow "tolow" "tolower"
# use "use" "used"
# was "was" "was"