我正在处理文本挖掘任务。今天,我对词干法有疑问。 我有几段采用这种格式。这些是字符对象,没有列出tm包中的两个Corpus对象。
[1]“安德烈斯·奥本海默(Indres oppenheimer intelectuales influyentes latinoamerica)塞古·雷维斯塔(regun)外交政策编辑专栏作家迈阿密先驱报(miami herald sigue recorriendo)大陆报导
我有一本字典,上面的语料库中有些单词必须匹配。问题是我无法通过词干法来做到这一点。我的语法如下:
lexicon<- read.xlsx("lexicon nf.xlsx",sheetName = "lex",colIndex = 1,header = T)
lexicon$palabra<- as.character(lexicon$palabra)
match<- paste(lexicon$palabra[order(-nchar(lexicon$palabra))],collapse = "|^")
如果我尝试:
match<- paste(lexicon$palabra[order(-nchar(lexicon$palabra))],collapse = "|")
它在任何位置都与单词匹配,但这不是我想要的。我知道,如果将语料库的单词按例如空格分开,我可以根据需要进行匹配,但这是一个更复杂的方法。我希望直接从该段落开始,但不要将其转换为语料库对象。
有什么主意吗?非常感谢您的帮助!