我正在准备一个数据集,其中包含带有R的CJK
个字符,主要是通过Tidyverse。在这个过程中,我发现最后一些字符元素有\037
。
# A tibble: 99 × 2
Prefecture n
<chr> <int>
1 \037 1
2 北海道\037 1
3 北海道 13
4 北海道 4
... ... ...
我尝试使用以下行删除它们:
library(stringr)
out.file %>% mutate(
Prefecture = str_replace_all(out.file$Prefecture, "\\\\037", "")
)
str_replace_all
在字符串上测试时会删除所有\037
。但是,在整个列上应用mutate
时,上面的行仍会在此帖子的第一个代码块中显示相同的结果。
从字符串中删除它们的最有效方法是什么?
使用解决方案更新
require(stringi)
out.file %>%
mutate(Prefecture = stri_escape_unicode(Prefecture),
Prefecture = str_replace_all(Prefecture, "\037", ""),
Prefecture = stri_unescape_unicode(Prefecture))
这样我就能成功解决问题。