将大文件分解为最大10MB的块的最有效方法

时间:2016-05-03 18:54:06

标签: linux algorithm computer-science

有一个大小为20GB的文本文件。该文件的每一行都是一个json对象。奇数行是描述偶数后续行的行。

目标是将大文件分成最大大小为10MB的块,知道每个文件应该有偶数行,这样格式化就不会丢失。最有效的方法是什么?

到目前为止,我的研究使我倾向于:

  1. Linux中的分割功能。有没有办法根据尺寸输出偶数行?

  2. 修改后的版本&征服阿尔戈。这甚至会起作用吗?

  3. 估算符合10MB标准的平均线数并迭代它&出口它符合标准。

  4. 我认为1.效率最高但我想在这里得到专家意见。

0 个答案:

没有答案