使用标签导入大数据集

时间:2018-08-13 12:22:41

标签: r fread read.table

导入大数据集(50GB)时,由于数据中出现“中断”,因此存在严重问题。我已经将数据拉到文本编辑器中,可以看到问题出在某一列中,文本溢出了几行。一个8列数据帧的简短示例如下:

1001;;x;t;Buy;A great blue car;200;h
1002;;x;t;Buy;A great red car;300;u
1003;;x;t;Buy;A great yellow car;800;u
1004;;x;t;Buy;A great white
car with more text

and more text;200;h
1005;;x;t;Buy;A great yellow car;800;u

我想做的是将数据组合成一个8列的框架,以允许使用fread将数据正确地读入R中。正确的解决方案如下所示:

1001;;x;t;Buy;A great blue car;200;h
1002;;x;t;Buy;A great red car;300;u
1003;;x;t;Buy;A great yellow car;800;u
1004;;x;t;Buy;A great whitecar with more textand more text;200;h
1005;;x;t;Buy;A great yellow car;800;u

0 个答案:

没有答案