Question

我正在尝试阅读大约100个csv文件，每个文件包含200,000行。所以我在比较fread和read.csv，而fread确实要快得多。但是，它会错误地读取一些记录。

csv文件的几行：

ID,raw_title,semi_clean,semi_clean_id
1,0 - 0,,0
2,"""0 - 1,000,000""",,0
27448,"20yr. rope walker
igger",Rope Walker Igger,1832700817

这是我的代码和输出。

x = read.csv("file1.csv",stringsAsFactors = FALSE)
y = fread("file1.csv")

x
  ï..ID                raw_title        semi_clean semi_clean_id
1     1                    0 - 0                               0
2     2          "0 - 1,000,000"                               0
3 27448 20yr. rope walker\nigger Rope Walker Igger    1832700817

y
   ï»¿ID                raw_title        semi_clean semi_clean_id
1:     1                    0 - 0                               0
2:     2        ""0 - 1,000,000""                               0
3: 27448 20yr. rope walker\rigger Rope Walker Igger    1832700817

检查第2行中的raw_title。对我来说，正确的值是＆＃34; 0 - 1,000,000＆＃34;。此外，出于好奇，第一列（ID）的名称获得了一些奇怪的附加字符。

R版本3.1.1（2014-07-10）平台：x86_64-w64-mingw32 / x64（64位） data.table版本1.9.6（之前我使用的是数据表1.9.1，它在读取此示例文件的最后一行时抛出错误，因此我遇到了this post并将我的数据表更新为当前CRAN版本）

使用fread阅读引号的问题

0 个答案: