将数据集文件拆分为特定大小的部分

时间:2019-07-09 17:20:56

标签: import split dataset size

我想分析一次将导入限制为100MB的系统上的this dataset

将数据集(每行)分成最多100MBs的最佳方法是什么?

1 个答案:

答案 0 :(得分:1)

R中的问题已解决。

  1. 读取数据集。
  2. 将数据集分成14个块(在13个块中,我有一个大小超过100MB的文件)。
  3. 然后我使用purrr
  4. 将结果另存为csv

这里是脚本:

trade = read.csv("commodity_trade_statistics_data.csv")

no_of_chunks <- 14

f <- ceiling(1:nrow(trade) / nrow(trade) * 14)

res <- split(trade, f)

library(purrr)
map2(res, paste0("chunk_", names(res), ".csv"), write.csv)