Question

我有一个巨大的文件（25 GB），包含SQL Server外的BCP导出过程的结果。

其内容如下：

<row CodigoCaso="1"><Imagenes><root xmlns:dt="urn:schemas-microsoft-com:datatypes"><cedulaantigua dt:dt="bin.base64"></cedulaantigua><formulariocara1 dt:dt="bin.base64"></formulariocara1><formulariocara2 dt:dt="bin.base64"></formulariocara2></root></Imagenes></row><row CodigoCaso="2"><Imagenes><root xmlns:dt="urn:schemas-microsoft-com:datatypes"><cedulaantigua dt:dt="bin.base64"></cedulaantigua><formulariocara1 dt:dt="bin.base64"></formulariocara1><formulariocara2 dt:dt="bin.base64"></formulariocara2></root></Imagenes></row>

......等等。

每个</row>后行没有LF或CR，所以我需要在每个</row>的末尾插入一个LF。如何知道我无法将文件加载到变量中，因为文件的大小？

Answer 1

您没有提及编程语言，但您应该寻找某种类型的流读取器对象，以便一次将一小部分文件加载到内存中。

在C＃中，它是System.IO.StreamReader类

在Java中，它是Java.io.BufferedReader类

Answer 2

1）读取随机数量的字节

2）追加CR / LF

3）if（还没有EOF）转到1

4）利润！

将文件拆分为多行

2 个答案: