文本分析 - 希望从我的语料库中删除小写单词。我可以使用gsub吗?使用tm_map进行清理

时间:2017-10-31 08:20:49

标签: r corpus

我希望清理语料库以找到合适的名字。我如何删除所有小写单词? removeWords? GSUB?

doc.corpus <- tm_map(doc.corpus, removePunctuation)
doc.corpus <- tm_map(doc.corpus, removeNumbers)
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("english"))
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("SMART"))

doc.corpus <-tm_map(doc.corpus, removeWords, lower)  ****something like this?****

inspect(doc.corpus[8])

2 个答案:

答案 0 :(得分:0)

尝试以下方法。根据您所需的输出,您可能需要重新排序替换。在下面的例子中,例如,从缩写&#34;美国&#34;中删除点。这给了&#34; U S&#34;,只有两个单独的字母。如果你想保留这些缩写,你将不得不调整你的正则表达式。

{{1}}

答案 1 :(得分:0)

teststring <- "aaa Bbb ccc Ddd eee Fff"
trimws(gsub("\\b[a-z]+\\b", "", teststring))
#[1] "Bbb  Ddd  Fff"

以上gsub函数删除所有小写单词。因此,您可以在代码中使用此gsub函数,如下所示:

removeLowerCase <- function(x) trimws(gsub("\\b[a-z]+\\b", "", x))
doc.corpus <- tm_map(doc.corpus, content_transformer(removeLowerCase))