正在对包含youtube评论的大型数据集执行一些文本挖掘(超过25000条评论)。不幸的是,非英语语言中有很多评论,如西班牙语,德语或中文。
我设法通过踢出除a-z和数字0-9之外的字符来删除中文。这是代码:
corpus <- tm_map(corpus, content_transformer(function(s){
gsub(pattern = '[^a-zA-Z0-9\\s]+',
x = s,
replacement = " ",
ignore.case = TRUE,
perl = TRUE)})
但是,这并不会删除德语或西班牙语单词。你知道如何删除或检测除英语以外的其他语言进行文本挖掘吗?
任何帮助将不胜感激!
由于