r文本分析完成

时间:2017-05-18 00:57:43

标签: r text tm stemming

如何在R中产生词语后完成单词?

x <- c("completed","complete","completion","teach","taught")
tm <- Corpus(VectorSource(x))
tm <- tm_map(tm, stemDocument)
inspect(tm)

用于说明目的的示例,因为实际的文本语料库要大得多。

我搜索过早期的examples,指出要创建一组同义词,但对于大型语料库,如何获得同义词词典?对于动词,我怎样才能完成词干到当前时态?感谢

1 个答案:

答案 0 :(得分:2)

TM有一个函数stemCompletion()

x <- c("completed","complete","completion","teach","taught")
tm <- Corpus(VectorSource(x))
tm <- tm_map(tm, stemDocument)
inspect(tm)
dictCorpus <- tm
tm <- tm_map(tm, stemDocument)
tm <- tm_map(tm, stripWhitespace, mc.cores=cores)  

tm<-tm_map(tm, stemCompletion,dictionary=dictCorpus)

至于用现在时态完成动词,我不确定tm是否可行。也许RWeka,word2vec或qdap会有方法,但我不确定。

快速而肮脏的解决方案可能是在type = shortest设置stemDocument通常我认为现在时态会比过去时和动词要短。