Question

我正在处理文本挖掘任务。今天，我对词干法有疑问。我有几段采用这种格式。这些是字符对象，没有列出tm包中的两个Corpus对象。

[1]“安德烈斯·奥本海默（Indres oppenheimer intelectuales influyentes latinoamerica）塞古·雷维斯塔（regun）外交政策编辑专栏作家迈阿密先驱报（miami herald sigue recorriendo）大陆报导

我有一本字典，上面的语料库中有些单词必须匹配。问题是我无法通过词干法来做到这一点。我的语法如下：

lexicon<- read.xlsx("lexicon nf.xlsx",sheetName = "lex",colIndex = 1,header = T)
lexicon$palabra<- as.character(lexicon$palabra)
match<- paste(lexicon$palabra[order(-nchar(lexicon$palabra))],collapse = "|^")

如果我尝试：

match<- paste(lexicon$palabra[order(-nchar(lexicon$palabra))],collapse = "|")

它在任何位置都与单词匹配，但这不是我想要的。我知道，如果将语料库的单词按例如空格分开，我可以根据需要进行匹配，但这是一个更复杂的方法。我希望直接从该段落开始，但不要将其转换为语料库对象。

有什么主意吗？非常感谢您的帮助！

文本挖掘-没有`tm`包的词干方法

0 个答案: