我有一个带嵌套引号的latin1编码的csv文件:
Ort;Stra▒e;Bezeichnung
Vienna;Testgasse 1;"Ministerium ""Pestalozzi"""
Graz;Teststra▒e 3;HS
Salzburg;Beispielstra▒e 9;"NMS ""Die Schlauen"""
Vienna;Wolfgang-Stra▒e 7;"Wirtshaus ""Wien III"""
使用来自data.table 1.9.6的fread在标题中给出了一个错误的特殊字符(ß),而下面的所有ß都是正确的 - 引用的引号保持“”。
dat <- fread("latin1quotedat.csv", encoding = "Latin-1")
dat # wrong header, wrong quotes
Ort Stra\xdfe Bezeichnung
1: Vienna Testgasse 1 Ministerium ""Pestalozzi""
2: Graz Teststraße 3 HS
3: Salzburg Beispielstraße 9 NMS ""Die Schlauen""
4: Vienna Wolfgang-Straße 7 Wirtshaus ""Wien III""
使用基础R中的read.csv2
一切都符合预期:
dat1 <- read.csv2("latin1quotedat.csv", encoding = "latin1")
dat1 # ok
Ort Straße Bezeichnung
1 Vienna Testgasse 1 Ministerium "Pestalozzi"
2 Graz Teststraße 3 HS
3 Salzburg Beispielstraße 9 NMS "Die Schlauen"
4 Vienna Wolfgang-Straße 7 Wirtshaus "Wien III"
也许引号有一个选项(虽然我找不到)。 标题中误解的特殊字符看起来像一个错误。
可以在此处找到代码和示例csv:https://github.com/nachti/datatable_test。
克隆存储库并运行latin1quotedat.R
。
格哈德
答案 0 :(得分:5)
现已在commit f91bba1中使用current devel, v1.9.7进行了修正。来自NEWS:
fread()
不尊重标题列上的编码。现已修复,#1680。谢谢@nachti。
有了这个,我得到:
names(fread("~/Downloads/latin1quotedat.csv", encoding = "Latin-1"))
# [1] "Ort" "Straße" "Bezeichnung"