Question

我有一个数据集（大约500,000行* 20 cols）。大多数行都是用空格分隔的，但是有一些异常值不是（我猜不好的记录）。我正在尝试使用fread()将数据加载到R中，但它总是向我抛出错误，因为有些行没有分开 -

错误消息 -

预期的sep（＆＃39;＆＃39;）但是＆＃39; ＆＃39;当检测到类型时，在第247172行结束字段1：1128 = 99 = 55035 = d49 = CME34 = 410252 = 2014121417033281615 = USD22 = 848 = 120255 = HI107 = LAXX9-MIAX9200 = 201911202 = 0207 = XCME461 = FMAXSX462 = 2555 = 2600 = [N / A] 602 = 354603 = 8623 = 1624 = 1600 = [N / A] 602 = 222603 = 8623 = 1624 = 2562 = 1731 = 1762 = IS827 = 2864 = 2865 = 5866 = 201411241145 = 223000000865 = 7866 = 201911251145 = 200000000870 = 5871 = 24872 = 1871 = 24872 = 3871 = 24872 = 4871 = 24872 = 11871 = 24872 = 14947 = USD969 = 20996 = CTRCT1140 = 9991141 = 21022 = GBX264 = 51022 = GBI264 = 21142 = T1143 = 4001144 = 31146 = 01147 = 01150 = 37801151 = LAX1180 = 131300 = 705796 = 201412129787 = 0.019850 = 010 = 101

有没有办法跳过这些记录？

感谢。

Answer 1

这不是一个特别庞大的档案。尝试以下几点：

table( count.fields("path/to/file/filename.txt", quote="", sep=" ") )

这将列出＆＃34;变形线的数量＆＃34;。如果它们不是太频繁，那么您应该使用普通的文本编辑器进行编辑。如果需要纯R解决方案，则使用readLines进入R工作区，gregexpr计算每行中的空格。

如何跳过在R中分隔的未分隔的记录

1 个答案: