我希望清理语料库以找到合适的名字。我如何删除所有小写单词? removeWords? GSUB?
doc.corpus <- tm_map(doc.corpus, removePunctuation)
doc.corpus <- tm_map(doc.corpus, removeNumbers)
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("english"))
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("SMART"))
doc.corpus <-tm_map(doc.corpus, removeWords, lower) ****something like this?****
inspect(doc.corpus[8])
答案 0 :(得分:0)
尝试以下方法。根据您所需的输出,您可能需要重新排序替换。在下面的例子中,例如,从缩写&#34;美国&#34;中删除点。这给了&#34; U S&#34;,只有两个单独的字母。如果你想保留这些缩写,你将不得不调整你的正则表达式。
{{1}}
答案 1 :(得分:0)
teststring <- "aaa Bbb ccc Ddd eee Fff"
trimws(gsub("\\b[a-z]+\\b", "", teststring))
#[1] "Bbb Ddd Fff"
以上gsub
函数删除所有小写单词。因此,您可以在代码中使用此gsub
函数,如下所示:
removeLowerCase <- function(x) trimws(gsub("\\b[a-z]+\\b", "", x))
doc.corpus <- tm_map(doc.corpus, content_transformer(removeLowerCase))