如何使用正则表达式从R数据框中的推文中删除以下字符
அனà¯à®ªà¯à®®ààபாசமà¯à®®ààநிறை஠தஇஸà¯à®²à®¾à®®à®¿à®¯à®šà®•à¯‹à®¤à®°à®šà®•à¯‹à® ¤à®°à®¿à®•à®³àகà¯à®•à¯à®°à®®à¯à®œà®¾à®©àநலà¯à® µà®¾à®´à¯à®¤àâत¤à®•à¯à®•à®³à
先谢谢了。 :)
答案 0 :(得分:2)
答案出自Rushabh。您可以使用iconv
将具有一种编码方式的字符串转换为另一种编码,并用参数sub
中给出的值替换不可转换的字符:
foo <- "அனà¯à®ªà¯à®®à¯ பாசமà¯à®®à¯ நிறைநà¯à®¤ இஸà¯à®²à®¾à®®à®¿à®¯ சகோதர சகோதரிகள௠கà¯à®•à¯ à®°à®®à¯à®œà®¾à®©à¯ நலà¯à®µà®¾à®´à¯à®¤à¯à®¤à¯à®•à¯à®•à®³à¯ …"
iconv(foo, from = "UTF-8", to = "ASCII", sub = "")
输出:
[1] "aaaaaaa aaasaaaa aaaaaaa aaaaaaaa asaaaa asaaaaaaaa aaaa aaaaaaa aaaaaaaaaaaaaaaa a"