我有一个2.8gb的文本文件,我正在尝试导入R.
1)我使用fread(file='file.txt',sep = ';',header = T,nrows = 1000,stringsAsFactors = F,fill=T)
快速查看,我看到有些行碰巧显示了一些带有NA的列,而下面的行中的值应该是NA的位置。
2)接下来,我使用HJSplit在记事本中查看文件的一部分,并注意到某些行中间有换行符,使这些行占用两行。这是对正在发生的事情的一种说明(例如';'分隔文件有4列):
id;name;age;sex
150;bob;40;F
151;luke;20;M
152;mary
20;F
153;larry;30;M
问题:有没有办法可以解决这个问题?
我想到的一件事是使用列数已定义的事实,但我不知道如何。