是否有比这更好/更快的方式:
funcs <- list(tolower, removePunctuation, removeNumbers, stripWhitespace)
for (i in funcs) myCorpus <- tm_map(myCorpus, content_transformer(i))
我知道,存在 tm_reduce ,但我无法使用它,因为我需要在tm content_transformer中打包函数。否则,所有元数据都将被销毁。
我尝试了类似
的内容## wrap content_transformer around tm_reduce calls
helpFun <- function(x, args) content_transformer(tm_reduce(x, args))
myCorpus <- tm_map(myCorpus, helpFun, myCorpus, funcs)
但失败了。
我已经考虑过使用do.call,funprog或apply。
我认为funprog和apply都取消了取消资格,因为这些函数并不适用于上面的函数列表。
然而,这个问题的有效解决方案会很好,因为在for循环的每次调用中,整个myCorpus被调用并再次保存......必须有更好的方法!
如果您需要样本数据,请告诉我。