使用tm(文本挖掘)R包中的stemDocument函数的意外结果

时间:2015-06-09 13:07:59

标签: r text-mining tm

当使用tm(文本挖掘)R包中的stemDocument函数时,单词“already”将转换为“alreadi”

例如:

我正在分析语料库文档中的一些推文。

其中一条推文在执行命令之前显示以下内容:

inspect(myCorpus[98])
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
select   member  jeffroky  attending sqlsat   true  already eventdt httptcoquyndcgs sqlpass

执行以下代码行后:

myCorpus <- tm_map(myCorpus, stemDocument, language = "english")>
inspect(myCorpus[98])

我获得了以下结果:

[[1]] 
PlainTextDocument (metadata: 7) 
select   member  jeffroki  attend sqlsat   true alreadi eventdt   httptcoquyndcg sqlpass

请注意“已经”改为“alreadi” 有人可以对这种行为有所了解吗?

谢谢! 路易斯

1 个答案:

答案 0 :(得分:0)

您需要使用词干完成功能。尝试

stemCompletion(“alreadi”,dictionary = myCorpus)

参考这篇文章 https://stackoverflow.com/a/25391686/2748373