Question

我试图将数据集导入RStudio，但是我遇到了汉字，因为它们变成了乱码。这是代码：

library(tidyverse)
df <- read_csv("中文,英文\n英文,德文")
df
# A tibble: 1 x 2
  `\xd6\xd0\xce\xc4`            `Ӣ\xce\xc4`
               <chr>                  <chr>
1 "<U+04E2>\xce\xc4" "<U+00B5>\xc2\xce\xc4"

当我使用基本函数read.csv时，它运行良好。我想我必须对编码做错事。但是read_csv中没有编码选项，我该怎么做？

Answer 1

这是因为字符标记为UTF-8，而实际编码是系统默认值（您可以通过stringi::stri_enc_get()获得）。

所以，你可以这样做：

1）使用正确的编码读取数据：

df <- read_csv("中文,英文\n英文,德文", locale = locale(encoding = stringi::stri_enc_get()))

2）使用不正确的编码读取数据并在以后使用正确的编码进行标记（请注意，这并不总是有效）：

df <- read_csv("中文,英文\n英文,德文")
df <- dplyr::mutate_all(df, `Encoding<-`, value = "unknown")

readr :: read_csv问题：汉字变成乱码

1 个答案: