导入到R时修复csv和fwf文件中的错误(损坏的字符)

时间:2016-09-09 15:21:05

标签: r data.table fread readr data-corruption

我从曾经存储为磁带的大文件(fwf和csv)导入数据,因此在写入磁带时可能会产生错误。

旧文件采用固定宽度文件(fwf)格式 较新的文件采用.csv格式(使用&#34 ;;"作为分隔符)

错误可能类似于:

用于fwf文件:

  • 损坏所有数据序列的损坏字符 横向,从那时起使所有的细胞不匹配 内容。
  • 缺少行尾字符

用于csv文件:

  • 损坏的字符
  • 在其他数字列中损坏的字符或字母
  • 意外的分隔符(导致预期更多的分隔符(
    cols数量 - 1)

有没有办法将其导入R跳过错误行,但保留错误日志以便以后可以手动检查?

或者我应该使用R外部的其他工具?在这种情况下,哪个工具?

我有大约100个文件非常大的文件(每个90GB)所以我更喜欢一些data.table :: fread,或者其他一些快速的解决方案。

0 个答案:

没有答案