我正在尝试阅读大约100个csv文件,每个文件包含200,000行。所以我在比较fread和read.csv,而fread确实要快得多。但是,它会错误地读取一些记录。
csv文件的几行:
ID,raw_title,semi_clean,semi_clean_id
1,0 - 0,,0
2,"""0 - 1,000,000""",,0
27448,"20yr. rope walker
igger",Rope Walker Igger,1832700817
这是我的代码和输出。
x = read.csv("file1.csv",stringsAsFactors = FALSE)
y = fread("file1.csv")
x
ï..ID raw_title semi_clean semi_clean_id
1 1 0 - 0 0
2 2 "0 - 1,000,000" 0
3 27448 20yr. rope walker\nigger Rope Walker Igger 1832700817
y
ID raw_title semi_clean semi_clean_id
1: 1 0 - 0 0
2: 2 ""0 - 1,000,000"" 0
3: 27448 20yr. rope walker\rigger Rope Walker Igger 1832700817
检查第2行中的raw_title。对我来说,正确的值是" 0 - 1,000,000"。 此外,出于好奇,第一列(ID)的名称获得了一些奇怪的附加字符。
R版本3.1.1(2014-07-10) 平台:x86_64-w64-mingw32 / x64(64位) data.table版本1.9.6(之前我使用的是数据表1.9.1,它在读取此示例文件的最后一行时抛出错误,因此我遇到了this post并将我的数据表更新为当前CRAN版本)