Question

我正在尝试保存从https://www.magna.isa.gov.il/Details.aspx?l=he RSelenium提取的数据，但是虽然R成功将希伯来字符打印到控制台，但在导出TXT，CSV或其他简单的R函数时却没有例如data.frame()，readHTMLTable()等

这是一个例子。

> head(lines)
[1] "גלובל פיננס ג'י.אר. 2 בע\"מ נתונים כספיים באלפי דולר ארה\"ב"
[2] "513435404"                                                  
[3] ""                                                           
[4] ""                                                           
[5] ""                                                           
[6] "4,481"

使用data.frame()

时，第一行会更改为奇怪的字符（下方）

> head(as.data.frame(lines))
[1] <U+05D2><U+05DC><U+05D5><U+05D1><U+05DC> <U+05E4><U+05D9><U+05E0><U+05E0><U+05E1> <U+05D2>'<U+05D9>.<U+05D0><U+05E8>. 2 <U+05D1><U+05E2>"<U+05DE> <U+05E0><U+05EA><U+05D5><U+05E0><U+05D9><U+05DD> <U+05DB><U+05E1><U+05E4><U+05D9><U+05D9><U+05DD> <U+05D1><U+05D0><U+05DC><U+05E4><U+05D9> <U+05D3><U+05D5><U+05DC><U+05E8> <U+05D0><U+05E8><U+05D4>"<U+05D1>

按write.table或write.csv导出.TXT或.CSV时也是如此：

write.csv(lines,"lines.csv",row.names=FALSE)

我尝试将编码更改为“UTF-8”，就像几个类似的问题中提到的那样，但问题仍然是以不同的格式出现：

iconv(lines, to = "UTF-8")
1 ׳’׳׳•׳‘׳ ׳₪׳™׳ ׳ ׳¡ ׳’'׳™.׳׳¨. 2 ׳‘׳¢"׳ ׳ ׳×׳•׳ ׳™׳ ׳›׳¡׳₪׳™׳™׳ ׳‘׳׳׳₪׳™ ׳“׳•׳׳¨ ׳׳¨׳”"׳‘

希伯来语ISO-8859-8相同：

iconv(lines, to = "ISO-8859-8")
    1 ×'×o×.×'×o ×₪×T× × ×! ×''×T.××¨. 2 ×'×¢"×z × ×a×.× ×T× ×>×!×₪×T×T× ×'××o×₪×T ×"×.×o×¨ ××¨×""×'

我不明白为什么控制台会在write.table()，write.csv()和data.frame()出现编码问题时很好地打印希伯来字符。

有人帮我出口吗？

Ken回答说，使用writeLines（）导出文本效果很好：

f = file("lines.txt", open = "wt", encoding = "UTF-8")
writeLines(lines, "lines.txt", useBytes = TRUE)
close(f)

然而，主要问题 R使用希伯来语编码而处理表格，以 as.data的形式.frame（）， write.table（）和 write.csv（）。有什么想法吗？

一些机器信息：

Sys.info()
                 sysname                      release                      version 
               "Windows"                      "7 x64" "build 7601, Service Pack 1" 
                nodename                      machine                        login 
              "TALIS-TP"                        "x86"

> Sys.getlocale()
[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"

Answer 1

许多人在使用8位系统编码的平台上使用UTF-8文本时遇到类似的问题（Windows）。 R中的编码可能很棘手，因为不同的方法处理编码和转换的方式不同，并且在一个平台（OS X或Linux）上运行良好的方法在另一个平台上运行不佳。

问题与您的输出连接以及Windows如何处理编码和文本连接有关。我试图在UTF-8和8位编码中使用一些希伯来文本来复制问题。我们也会介绍文件阅读问题，因为那里也会有一些障碍。

对于测试

创建了一个简短的希伯来语文本文件，编码为UTF-8：hebrew-utf8.txt
创建了一个简短的希伯来语语言文本文件，编码为ISO-8859-8：hebrew-iso-8859-8.txt。（注意：您可能需要告诉浏览器有关编码的信息，以便正确查看此编码 - 例如Safari的情况。）

阅读文件的方法

现在让我们进行实验。我正在使用Windows 7进行这些测试（它实际上适用于OS X，我通常的操作系统）。

lines <- readLines("http://kenbenoit.net/files/hebrew-utf8.txt")
lines
## [1] "×”×¢×‘×¨×™ ×”×•× ×—×‘×¨ ×‘×§×‘×•×¦×” ×”×›× ×¢× ×™×ª ×©×œ ×©×¤×•×ª ×©×ž×™×•×ª."                                                                     
## [2] "×–×• ×”×™×ª×” ×©×¤×ª× ×©×œ ×”×™×”×•×“×™× ×ž×•×§×“×, ××‘×œ ×ž×Ÿ 586 ×œ×¤× ×”\"×¡ ×–×” ×”×ª×—×™×œ ×œ×”×™×•×ª ×ž×•×—×œ×£ ×¢×œ ×™×“×™ ×‘××¨×ž×™×ª."

失败了，因为它假设编码是您的系统编码，Windows-1252。但是因为在读取文件时没有发生转换，所以只需将编码位设置为UTF-8即可解决此问题：

# this sets the bit for UTF-8
Encoding(lines) <- "UTF-8"
lines
## [1] "העברי הוא חבר בקבוצה הכנענית של שפות שמיות."                                          
## [2] "זו היתה שפתם של היהודים מוקדם, אבל מן 586 לפנה\"ס זה התחיל להיות מוחלף על ידי בארמית."

但是当你阅读文件时，最好这样做：

# this does it in one pass
lines2 <- readLines("http://kenbenoit.net/files/hebrew-utf8.txt", encoding = "UTF-8")
lines2[1]
## [1] "העברי הוא חבר בקבוצה הכנענית של שפות שמיות."
Encoding(lines2)
## [1] "UTF-8" "UTF-8"

现在看看如果我们尝试读取相同的文本，但编码为8位ISO希伯来语代码页会发生什么。

lines3 <- readLines("http://kenbenoit.net/files/hebrew-iso-8859-8.txt")
lines3[1]
## [1] "äòáøé äåà çáø á÷áåöä äëðòðéú ùì ùôåú ùîéåú."

设置编码位在这里没有帮助，因为读取的内容不会映射到希伯来语的Unicode代码点，而Encoding()没有实际的编码转换，它只是设置了一个可以使用的额外位告诉R一个可能的编码值之一。我们可以通过向encoding = "ISO-8859-8"电话添加readLines()来解决此问题。我们还可以使用iconv()：

在加载后转换文本

# this will not fix things
Encoding(lines3) <- "UTF-8"
lines3[1]
## [1] "\xe4\xf2\xe1\xf8\xe9 \xe4\xe5\xe0 \xe7\xe1\xf8 \xe1\xf7\xe1\xe5\xf6\xe4 \xe4\xeb\xf0\xf2\xf0\xe9\xfa \xf9\xec \xf9\xf4\xe5\xfa \xf9\xee\xe9\xe5\xfa."
# but this will
iconv(lines3, "ISO-8859-8", "UTF-8")[1]
## [1] "העברי הוא חבר בקבוצה הכנענית של שפות שמיות."

总的来说，我认为上面用于lines2的方法是最好的方法。

如何输出文件，保留编码

现在问题如何编写：最安全的方法是在较低级别控制连接，您可以在其中指定编码。否则，默认为R / Windows选择您的系统编码，这将失去UTF-8。我认为这样可以工作，它在OS X中运行非常好 - 并且OS X也可以正常调用writeLines()只需命名一个没有textConnection的文本文件。

## to write lines, use the encoding option of a connection object
f <- file("hebrew-output-UTF-8.txt", open = "wt", encoding = "UTF-8")
writeLines(lines2, f)
close(f)

但它在Windows上不起作用。您可以在此处查看Windows 7结果：hebrew-output-UTF-8-file_encoding.txt。

所以，以下是如何在Windows中执行：一旦确定文本编码为UTF-8，只需将其写为原始字节，而不使用任何编码，如下所示： / p>

writeLines(lines2, "hebrew-output-UTF-8-useBytesTRUE.txt", useBytes = TRUE)

您可以在hebrew-output-UTF-8-useBytesTRUE.txt看到结果，现在是UTF-8，看起来是正确的。

为write.csv添加

请注意，您要执行此操作的唯一原因是使.csv文件可用于导入其他软件，例如Excel。（祝你好运在Excel / Windows中使用UTF-8 ......）否则，你应该使用write(myDataFrame, file = "myDataFrame.RData")将data.table写成二进制文件。但如果你真的需要输出.csv，那么：

如何从Windows中的`data.table`

编写UTF-8 .csv文件

使用write.table()和write.csv()编写UTF-8文件的问题在于这些开放文本连接，而Windows对UTF-8的编码和文本连接有限制。（This post提供了一个有用的解释。）在发布了here的SO答案之后，我们可以覆盖它来编写我们自己的函数来输出UTF-8 .csv文件。

这假设您已将Encoding()的任何字符元素设置为"UTF-8"（在lines2上方导入时会发生这种情况。）

df <- data.frame(int = 1:2, text = lines2, stringsAsFactors = FALSE)

write_utf8_csv <- function(df, file) {
    firstline <- paste('"', names(df), '"', sep = "", collapse = " , ")
    data <- apply(df, 1, function(x) {paste('"', x, '"', sep = "", collapse = " , ")})
    writeLines(c(firstline, data), file , useBytes = TRUE)
}

write_utf8_csv(df, "df_csv.txt")

当我们现在在非Unicode挑战的操作系统中查看该文件时，它现在看起来很好：

KBsMBP15-2:Desktop kbenoit$ cat df_csv.txt 
"int" , "text"
"1" , "העברי הוא חבר בקבוצה הכנענית של שפות שמיות."
"2" , "זו היתה שפתם של היהודים מוקדם, אבל מן 586 לפנה"ס זה התחיל להיות מוחלף על ידי בארמית."
KBsMBP15-2:Desktop kbenoit$ file df_csv.txt 
df_csv.txt: UTF-8 Unicode text, with CRLF line terminators

R中的希伯来语编码地狱并在Windows中编写UTF-8表

1 个答案:

对于测试

阅读文件的方法

如何输出文件，保留编码

如何从Windows中的`data.table`

R中的希伯来语编码地狱并在Windows中编写UTF-8表

1 个答案:

对于测试

阅读文件的方法

如何输出文件，保留编码

如何从Windows中的data.table

如何从Windows中的`data.table`