Question

我有以下代码：

raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip)

产生以下错误：

Error in fread("avito_test.tsv", nrows = intNrows, skip = intSkip, autostart = (intSkip +  : 
  Expected sep (',') but new line, EOF (or other non printing character) ends field 14 on line 1003 when detecting types: 10066652  Ð¢Ñ€Ð°Ð½ÑÐ¿Ð¾Ñ€Ñ‚   ÐÐ²Ñ‚Ð¾Ð¼Ð¾Ð±Ð¸Ð»Ð¸ Ñ Ð¿Ñ€Ð¾Ð±ÐµÐ³Ð¾Ð¼  Nissan R Nessa, 1998    Ð¢Ð°Ñ€Ð°Ð½Ñ‚Ð°Ñ Ð² Ð¾Ñ‚Ð»Ð¸Ñ‡Ð½Ð¾Ð¼ ÑÐ¾ÑÑ‚Ð¾ÑÐ½Ð¸Ð¸. Ð½Ð° Ð¿Ñ€Ð¾ÑˆÐ»Ð¾Ð¹ Ð½ÐµÐ´ÐµÐ»Ðµ Ð²Ð¾Ð·Ð¸Ð»Ð¸ Ð½Ð° Ñ‚ÐµÑ…. ÐžÐ±ÑÐ»ÑƒÐ¶Ð¸Ð²Ð°Ð½Ð¸Ðµ. Ð’ Ð´Ð¾Ñ€Ð¾Ð¶Ð½Ñ‹Ñ… Ð½ÐµÐ¿Ñ€Ð¸ÑÑ‚Ð½Ð¾ÑÑ‚ÑÑ… Ð½Ðµ Ð±Ñ‹Ð» ÑƒÑ‡Ð°ÑÑ‚Ð½Ð¸ÐºÐ¾Ð¼. Ð”ÐµÑ‚Ð°Ð»Ð¸ ÐºÑƒÐ·Ð¾Ð²Ð° Ð±ÐµÐ· ÐºÐ¾Ñ†Ð¾Ðº Ð¸ Ñ‚ÐµÑ€Ð¾Ðº. ÐŸÑ€ÐµÐ´Ð½Ð°Ð·Ð½Ð°Ñ‡Ð°Ð»Ð°ÑÑŒ Ð´Ð»Ñ Ð¿Ð¾ÐµÐ·Ð´Ð¾Ðº Ð½Ð° Ð¿Ñ€Ð¸Ñ€Ð¾Ð´Ñƒ, ÐžÑ‚Ð´Ð°Ð¼ Ñ‚Ð¾Ð»ÑŒÐºÐ¾ Ð² Ð´Ð¾Ð±Ñ€Ñ‹Ðµ Ñ€ÑƒÐºÐ¸. Ð’ ÑÐ°Ð»Ð¾Ð½ Ð½Ðµ Ð¿Ð¾ÑÑ‚Ð°Ð²Ð»ÑŽ Ð½Ðµ Ð·Ð²Ð¾Ð½Ð¸Ñ‚Ðµ    "{""ÐœÐ°Ñ€ÐºÐ°"":""Nissan"", ""ÐœÐ¾Ð´ÐµÐ»ÑŒ"":""R Nessa"", ""Ð“Ð¾Ð´ Ð²Ñ‹Ð¿ÑƒÑÐºÐ°"":""1998"", ""ÐŸÑ€Ð¾Ð±ÐµÐ³"":""180 000 - 189 999"", ""Ð¢Ð¸Ð¿ ÐºÑƒÐ·Ð¾Ð²Ð°"":""ÐœÐ¸Ð½Ð¸Ð²ÑÐ½"", ""Ð¦Ð²ÐµÑ‚"":""ÐžÑ€Ð°Ð½Ð¶ÐµÐ²Ñ‹Ð¹"", ""ÐžÐ±ÑŠÑ‘Ð¼ Ð´Ð²Ð¸Ð³Ð°Ñ‚ÐµÐ»Ñ"":""2.4"", ""ÐšÐ¾Ñ€Ð¾Ð±ÐºÐ° Ð¿ÐµÑ€ÐµÐ´Ð°Ñ‡"":""ÐœÐµÑ…Ð°Ð½Ð¸Ñ‡ÐµÑÐºÐ°Ñ

我尝试将其更改为：

raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip, autostart = (intSkip + 2))

这是基于我在类似问题上阅读的内容skip and autostart in fread

但是，它会产生与上面类似的错误。

如何跳过前1000行，并阅读下千行？我的预期输出总共是1000行，从我的CSV文件中跳过第一千个，然后读取第二千个。

注意：使用raw_test <- fread("avito_test.tsv", nrows = 1000, skip = -1)阅读文件很适合让我只获得第一千个，但我只想获得第二千个。

修改：数据在http://www.kaggle.com/c/avito-prohibited-content/data

公开发布

修改：环境和包裹信息：

> packageVersion("data.table")
[1] ‘1.9.3’
> sessionInfo()
R version 3.1.0 (2014-04-10)
Platform: x86_64-w64-mingw32/x64 (64-bit)

fread skip和autostart问题

0 个答案: