使用fread阅读引号的问题

时间:2016-09-20 09:31:05

标签: r csv data.table double-quotes

我正在尝试阅读大约100个csv文件,每个文件包含200,000行。所以我在比较fread和read.csv,而fread确实要快得多。但是,它会错误地读取一些记录。

csv文件的几行:

ID,raw_title,semi_clean,semi_clean_id
1,0 - 0,,0
2,"""0 - 1,000,000""",,0
27448,"20yr. rope walker
igger",Rope Walker Igger,1832700817

这是我的代码和输出。

x = read.csv("file1.csv",stringsAsFactors = FALSE)
y = fread("file1.csv")

x
  ï..ID                raw_title        semi_clean semi_clean_id
1     1                    0 - 0                               0
2     2          "0 - 1,000,000"                               0
3 27448 20yr. rope walker\nigger Rope Walker Igger    1832700817

y
   ID                raw_title        semi_clean semi_clean_id
1:     1                    0 - 0                               0
2:     2        ""0 - 1,000,000""                               0
3: 27448 20yr. rope walker\rigger Rope Walker Igger    1832700817

检查第2行中的raw_title。对我来说,正确的值是" 0 - 1,000,000"。 此外,出于好奇,第一列(ID)的名称获得了一些奇怪的附加字符。

R版本3.1.1(2014-07-10) 平台:x86_64-w64-mingw32 / x64(64位) data.table版本1.9.6(之前我使用的是数据表1.9.1,它在读取此示例文件的最后一行时抛出错误,因此我遇到了this post并将我的数据表更新为当前CRAN版本)

0 个答案:

没有答案