如何使用正则表达式从R中的字符串中删除诸如ன之类的特殊字符

时间:2018-06-21 17:05:22

标签: r regex tweets

如何使用正则表达式从R数据框中的推文中删除以下字符

அனà¯à®ªà¯à®®ààபாசமà¯à®®ààநிறை஠தஇஸà¯à®²à®¾à®®à®¿à®¯à®šà®•à¯‹à®¤à®°à®šà®•à¯‹à® ¤à®°à®¿à®•à®³àகà¯à®•à¯à®°à®®à¯à®œà®¾à®©àநலà¯à® µà®¾à®´à¯à®¤àâत¤à®•à¯à®•à®³à

先谢谢了。 :)

1 个答案:

答案 0 :(得分:2)

答案出自Rushabh。您可以使用iconv将具有一种编码方式的字符串转换为另一种编码,并用参数sub中给出的值替换不可转换的字符:

foo <- "அனà¯à®ªà¯à®®à¯ பாசமà¯à®®à¯ நிறைநà¯à®¤ இஸà¯à®²à®¾à®®à®¿à®¯ சகோதர சகோதரிகள௠கà¯à®•à¯ à®°à®®à¯à®œà®¾à®©à¯ நலà¯à®µà®¾à®´à¯à®¤à¯à®¤à¯à®•à¯à®•à®³à¯ …"
iconv(foo, from = "UTF-8", to = "ASCII", sub = "")

输出:

[1] "aaaaaaa aaasaaaa aaaaaaa aaaaaaaa asaaaa asaaaaaaaa aaaa aaaaaaa aaaaaaaaaaaaaaaa a"