r:需要tm_map()调用的content_transformer()将非字母更改为空格

时间:2015-04-23 20:26:12

标签: r text-mining

在以下代码中,匹配" / | @ |的任何字符\ |")将更改为空格。

> library(tm)
> toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
> docs <- tm_map(docs, toSpace, "/|@| \\|")

什么代码会将所有非字母转换为空格? (xxxxx以下是什么。)

将所有非字母放在一个字符串中是非常困难的...(非常长的列表,一些不可打印的字符,以及转义字符的东西。)所以我做的与上面相反。< / p>

> toSpace_2 <- content_transformer(function xxxxxxxxxxxxxxxxxxxxxxx))
> docs <- tm_map(docs, toSpace_2, 
"a|b|c|d|e|f|g|h|i|j|k|l|m|n|o|p|q|r|s|t|u|v|w|x|y|z")

这需要通过content_transformer()函数来完成,以维护文档的完整性。这必须非常简单......

由于

1 个答案:

答案 0 :(得分:1)

这只是一个正则表达式。 \W将匹配任何非单词字符。

docs <- tm_map(docs, toSpace, "\\W")