fread skip和autostart问题

时间:2014-07-15 13:20:41

标签: r data.table fread

我有以下代码:

raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip)

产生以下错误:

Error in fread("avito_test.tsv", nrows = intNrows, skip = intSkip, autostart = (intSkip +  : 
  Expected sep (',') but new line, EOF (or other non printing character) ends field 14 on line 1003 when detecting types: 10066652  ТранÑпорт   Ðвтомобили Ñ Ð¿Ñ€Ð¾Ð±ÐµÐ³Ð¾Ð¼  Nissan R Nessa, 1998    Ð¢Ð°Ñ€Ð°Ð½Ñ‚Ð°Ñ Ð² отличном ÑоÑтоÑнии. на прошлой неделе возили на тех. ОбÑлуживание. Ð’ дорожных неприÑтноÑÑ‚ÑÑ… не был учаÑтником. Детали кузова без коцок и терок. ПредназначалаÑÑŒ Ð´Ð»Ñ Ð¿Ð¾ÐµÐ·Ð´Ð¾Ðº на природу, Отдам только в добрые руки. Ð’ Ñалон не поÑтавлю не звоните    "{""Марка"":""Nissan"", ""Модель"":""R Nessa"", ""Год выпуÑка"":""1998"", ""Пробег"":""180 000 - 189 999"", ""Тип кузова"":""МинивÑн"", ""Цвет"":""Оранжевый"", ""Объём двигателÑ"":""2.4"", ""Коробка передач"":""МеханичеÑкаÑ

我尝试将其更改为:

raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip, autostart = (intSkip + 2))

这是基于我在类似问题上阅读的内容skip and autostart in fread

但是,它会产生与上面类似的错误。

如何跳过前1000行,并阅读下千行?我的预期输出总共是1000行,从我的CSV文件中跳过第一千个,然后读取第二千个。

注意:使用raw_test <- fread("avito_test.tsv", nrows = 1000, skip = -1)阅读文件很适合让我只获得第一千个,但我只想获得第二千个。

修改:数据在http://www.kaggle.com/c/avito-prohibited-content/data

公开发布

修改:环境和包裹信息:

> packageVersion("data.table")
[1] ‘1.9.3’
> sessionInfo()
R version 3.1.0 (2014-04-10)
Platform: x86_64-w64-mingw32/x64 (64-bit)

0 个答案:

没有答案