如何在R中产生词语后完成单词?
x <- c("completed","complete","completion","teach","taught")
tm <- Corpus(VectorSource(x))
tm <- tm_map(tm, stemDocument)
inspect(tm)
用于说明目的的示例,因为实际的文本语料库要大得多。
我搜索过早期的examples,指出要创建一组同义词,但对于大型语料库,如何获得同义词词典?对于动词,我怎样才能完成词干到当前时态?感谢
答案 0 :(得分:2)
TM有一个函数stemCompletion()
x <- c("completed","complete","completion","teach","taught")
tm <- Corpus(VectorSource(x))
tm <- tm_map(tm, stemDocument)
inspect(tm)
dictCorpus <- tm
tm <- tm_map(tm, stemDocument)
tm <- tm_map(tm, stripWhitespace, mc.cores=cores)
tm<-tm_map(tm, stemCompletion,dictionary=dictCorpus)
至于用现在时态完成动词,我不确定tm是否可行。也许RWeka,word2vec或qdap会有方法,但我不确定。
快速而肮脏的解决方案可能是在type = shortest
设置stemDocument
通常我认为现在时态会比过去时和动词要短。