Question

我希望清理语料库以找到合适的名字。我如何删除所有小写单词？ removeWords？ GSUB？

doc.corpus <- tm_map(doc.corpus, removePunctuation)
doc.corpus <- tm_map(doc.corpus, removeNumbers)
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("english"))
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("SMART"))

doc.corpus <-tm_map(doc.corpus, removeWords, lower)  ****something like this?****

inspect(doc.corpus[8])

Answer 1

尝试以下方法。根据您所需的输出，您可能需要重新排序替换。在下面的例子中，例如，从缩写＆＃34;美国＆＃34;中删除点。这给了＆＃34; U S＆＃34;，只有两个单独的字母。如果你想保留这些缩写，你将不得不调整你的正则表达式。

{{1}}

Answer 2

teststring <- "aaa Bbb ccc Ddd eee Fff"
trimws(gsub("\\b[a-z]+\\b", "", teststring))
#[1] "Bbb  Ddd  Fff"

以上gsub函数删除所有小写单词。因此，您可以在代码中使用此gsub函数，如下所示：

removeLowerCase <- function(x) trimws(gsub("\\b[a-z]+\\b", "", x))
doc.corpus <- tm_map(doc.corpus, content_transformer(removeLowerCase))

文本分析 - 希望从我的语料库中删除小写单词。我可以使用gsub吗？使用tm_map进行清理

2 个答案: