当使用tm(文本挖掘)R包中的stemDocument函数时,单词“already”将转换为“alreadi”
例如:
我正在分析语料库文档中的一些推文。
其中一条推文在执行命令之前显示以下内容:
inspect(myCorpus[98])
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>
[[1]]
<<PlainTextDocument (metadata: 7)>>
select member jeffroky attending sqlsat true already eventdt httptcoquyndcgs sqlpass
执行以下代码行后:
myCorpus <- tm_map(myCorpus, stemDocument, language = "english")>
inspect(myCorpus[98])
我获得了以下结果:
[[1]]
PlainTextDocument (metadata: 7)
select member jeffroki attend sqlsat true alreadi eventdt httptcoquyndcg sqlpass
请注意“已经”改为“alreadi” 有人可以对这种行为有所了解吗?
谢谢! 路易斯
答案 0 :(得分:0)
您需要使用词干完成功能。尝试
stemCompletion(“alreadi”,dictionary = myCorpus)