应用错误收集

将大文件分解为最大10MB的块的最有效方法

时间：2016-05-03 18:54:06

标签： linux algorithm computer-science

有一个大小为20GB的文本文件。该文件的每一行都是一个json对象。奇数行是描述偶数后续行的行。

目标是将大文件分成最大大小为10MB的块，知道每个文件应该有偶数行，这样格式化就不会丢失。最有效的方法是什么？

到目前为止，我的研究使我倾向于：

Linux中的分割功能。有没有办法根据尺寸输出偶数行？
修改后的版本＆amp;征服阿尔戈。这甚至会起作用吗？
估算符合10MB标准的平均线数并迭代它＆amp;出口它符合标准。

我认为1.效率最高但我想在这里得到专家意见。

0 个答案:

没有答案