应用错误收集

正在对包含youtube评论的大型数据集执行一些文本挖掘（超过25000条评论）。不幸的是，非英语语言中有很多评论，如西班牙语，德语或中文。

我设法通过踢出除a-z和数字0-9之外的字符来删除中文。这是代码：

corpus <- tm_map(corpus, content_transformer(function(s){
gsub(pattern = '[^a-zA-Z0-9\\s]+',
   x = s,
   replacement = " ",
   ignore.case = TRUE,
   perl = TRUE)})

但是，这并不会删除德语或西班牙语单词。你知道如何删除或检测除英语以外的其他语言进行文本挖掘吗？

任何帮助将不胜感激！

由于

在R中删除英语以外的语言

0 个答案: