删除" \ 037"来自R中的字符串

时间:2017-04-07 17:27:54

标签: r cjk

我正在准备一个数据集,其中包含带有R的CJK个字符,主要是通过Tidyverse。在这个过程中,我发现最后一些字符元素有\037

# A tibble: 99 × 2
     Prefecture     n
            <chr> <int>
1            \037     1
2      北海道\037     1
3          北海道    13
4          北海道     4
...          ...     ...

我尝试使用以下行删除它们:

library(stringr)
out.file %>% mutate(
    Prefecture = str_replace_all(out.file$Prefecture, "\\\\037", "")
)

str_replace_all在字符串上测试时会删除所有\037。但是,在整个列上应用mutate时,上面的行仍会在此帖子的第一个代码块中显示相同的结果。

从字符串中删除它们的最有效方法是什么?

使用解决方案更新

require(stringi)
out.file %>% 
mutate(Prefecture = stri_escape_unicode(Prefecture), 
       Prefecture = str_replace_all(Prefecture, "\037", ""),
       Prefecture = stri_unescape_unicode(Prefecture))

这样我就能成功解决问题。

0 个答案:

没有答案