有没有办法从R中的字符串中删除所有副词和代词?

时间:2020-04-16 10:16:58

标签: r nlp statistics topic-modeling

我是R的新手。在尝试执行主题建模时,我需要从数据集中删除所有不相关的单词。是否有一个功能可以找到属于语音特定部分的单词?

1 个答案:

答案 0 :(得分:0)

您可以使用

gsub(pattern, replacement, x)

其中x是您的字符变量,“ pattern”是您要替换的单词,“ replacement”将是“”。但是,R不知道代词是什么。因此,您必须通过使用您的字符串所用的语言编写所有可能代词的列表来加以说明。然后,您必须像这样对所有代词(或任何种类的单词)重复代词: / p>

x <- "This is a character string in which I tell you how he deleted pronouns."
unwant <- c(
"I", "he", "she", "it",...)
unwanted <- c(paste(" ", unwanted, " ", sep = ""), paste(" ", unwanted, ".", sep = ""), paste(" ", unwanted, "!", sep = ""), paste(" ", unwanted, "?", sep = ""), paste(" ", unwanted, ",", sep = "")
)

result <- x
for(i in 1:NROW(unwanted)){
result <- gsub(unwanted[i], " ", result)
}

print(result)

显然,“ ...”意味着您必须插入yu不需要的所有单词,但是我想互联网上某个地方有所有代词的列表。 编辑:您必须在单词前后插入空格,以使R不会在出现单词的其他单词中切出字母。我是通过paste函数添加的,您的代词以多种方式进行了修改,例如如果它们出现在句子结尾。