导入大数据集(50GB)时,由于数据中出现“中断”,因此存在严重问题。我已经将数据拉到文本编辑器中,可以看到问题出在某一列中,文本溢出了几行。一个8列数据帧的简短示例如下:
1001;;x;t;Buy;A great blue car;200;h
1002;;x;t;Buy;A great red car;300;u
1003;;x;t;Buy;A great yellow car;800;u
1004;;x;t;Buy;A great white
car with more text
and more text;200;h
1005;;x;t;Buy;A great yellow car;800;u
我想做的是将数据组合成一个8列的框架,以允许使用fread将数据正确地读入R中。正确的解决方案如下所示:
1001;;x;t;Buy;A great blue car;200;h
1002;;x;t;Buy;A great red car;300;u
1003;;x;t;Buy;A great yellow car;800;u
1004;;x;t;Buy;A great whitecar with more textand more text;200;h
1005;;x;t;Buy;A great yellow car;800;u