标签: linux algorithm computer-science
有一个大小为20GB的文本文件。该文件的每一行都是一个json对象。奇数行是描述偶数后续行的行。
目标是将大文件分成最大大小为10MB的块,知道每个文件应该有偶数行,这样格式化就不会丢失。最有效的方法是什么?
到目前为止,我的研究使我倾向于:
Linux中的分割功能。有没有办法根据尺寸输出偶数行?
修改后的版本&征服阿尔戈。这甚至会起作用吗?
估算符合10MB标准的平均线数并迭代它&出口它符合标准。
我认为1.效率最高但我想在这里得到专家意见。