`fread`带有特殊字符的标题(latin1)和不常见的嵌套引号

时间:2016-04-27 14:43:15

标签: r data.table

我有一个带嵌套引号的latin1编码的csv文件:

Ort;Stra▒e;Bezeichnung
Vienna;Testgasse 1;"Ministerium ""Pestalozzi"""
Graz;Teststra▒e 3;HS
Salzburg;Beispielstra▒e 9;"NMS ""Die Schlauen"""
Vienna;Wolfgang-Stra▒e 7;"Wirtshaus ""Wien III"""

使用来自data.table 1.9.6的fread在标题中给出了一个错误的特殊字符(ß),而下面的所有ß都是正确的 - 引用的引号保持“”。

dat <- fread("latin1quotedat.csv", encoding = "Latin-1")
dat # wrong header, wrong quotes
       Ort         Stra\xdfe                Bezeichnung
1:   Vienna       Testgasse 1 Ministerium ""Pestalozzi""
2:     Graz      Teststraße 3                         HS
3: Salzburg  Beispielstraße 9       NMS ""Die Schlauen""
4:   Vienna Wolfgang-Straße 7     Wirtshaus ""Wien III""

使用基础R中的read.csv2一切都符合预期:

dat1 <- read.csv2("latin1quotedat.csv", encoding = "latin1")
dat1 # ok
       Ort            Straße              Bezeichnung
1   Vienna       Testgasse 1 Ministerium "Pestalozzi"
2     Graz      Teststraße 3                       HS
3 Salzburg  Beispielstraße 9       NMS "Die Schlauen"
4   Vienna Wolfgang-Straße 7     Wirtshaus "Wien III"

也许引号有一个选项(虽然我找不到)。 标题中误解的特殊字符看起来像一个错误。

可以在此处找到代码和示例csv:https://github.com/nachti/datatable_test。 克隆存储库并运行latin1quotedat.R

格哈德

1 个答案:

答案 0 :(得分:5)

现已在commit f91bba1中使用current devel, v1.9.7进行了修正。来自NEWS

  

fread()不尊重标题列上的编码。现已修复,#1680。谢谢@nachti。

有了这个,我得到:

names(fread("~/Downloads/latin1quotedat.csv", encoding = "Latin-1"))
# [1] "Ort"         "Straße"      "Bezeichnung"