我有一个数据集(大约500,000行* 20 cols)。大多数行都是用空格分隔的,但是有一些异常值不是(我猜不好的记录)。我正在尝试使用fread()
将数据加载到R中,但它总是向我抛出错误,因为有些行没有分开 -
错误消息 -
预期的sep('')但是' '当检测到类型时,在第247172行结束字段1:1128 = 99 = 55035 = d49 = CME34 = 410252 = 2014121417033281615 = USD22 = 848 = 120255 = HI107 = LAXX9-MIAX9200 = 201911202 = 0207 = XCME461 = FMAXSX462 = 2555 = 2600 = [N / A] 602 = 354603 = 8623 = 1624 = 1600 = [N / A] 602 = 222603 = 8623 = 1624 = 2562 = 1731 = 1762 = IS827 = 2864 = 2865 = 5866 = 201411241145 = 223000000865 = 7866 = 201911251145 = 200000000870 = 5871 = 24872 = 1871 = 24872 = 3871 = 24872 = 4871 = 24872 = 11871 = 24872 = 14947 = USD969 = 20996 = CTRCT1140 = 9991141 = 21022 = GBX264 = 51022 = GBI264 = 21142 = T1143 = 4001144 = 31146 = 01147 = 01150 = 37801151 = LAX1180 = 131300 = 705796 = 201412129787 = 0.019850 = 010 = 101
有没有办法跳过这些记录?
感谢。
答案 0 :(得分:0)
这不是一个特别庞大的档案。尝试以下几点:
table( count.fields("path/to/file/filename.txt", quote="", sep=" ") )
这将列出"变形线的数量"。如果它们不是太频繁,那么您应该使用普通的文本编辑器进行编辑。如果需要纯R解决方案,则使用readLines
进入R工作区,gregexpr
计算每行中的空格。