Question

我试图在MATLAB中使用textscan分析一个非常大的文件。有问题的文件大小约为12 GB，包含大约2.5亿行，每行有7个（浮动）数字（由空格分隔）;因为这显然不适合我桌面的RAM，我使用MATLAB documentation中建议的方法（即一次加载和分析一个较小的文件块。根据文档，这应该允许处理＆＃34;任意大的分隔文本文件[s]＆＃34;）。这只允许我扫描大约43％的文件，之后文本扫描开始返回空单元格（尽管文件中仍有数据要扫描）。

要进行调试，我尝试使用fseek函数转到文件中的多个位置，例如：

fileInfo = dir(fileName);
fid = fileopen(fileName);
fseek(fid, floor(fileInfo.bytes/10), 'bof');
textscan(fid,'%f %f %f %f %f %f %f','Delimiter',' ');

我假设我在这里使用fseek的方式将位置指示器移动到我文件的大约10％。（我知道这并不一定意味着指标在一行的开头，但如果我运行textscan两次，我会得到一个满意的答案。）现在，如果我替换{{1通过fileInfo.bytes/10（即将其移动到文件的大约50％），一切都会中断，fileInfo.bytes/2只返回一个空的1x7单元格。

我使用文本编辑器查看了大文件的文件，这表明整个文件看起来很好，并且没有理由让textscan混淆。我能想到的唯一可能的解释是，在我不太了解的更深层次上出现问题。任何建议将不胜感激！

修改

我的代码的相关部分过去看起来像这样：

textscan

首先，我尝试使用下面Hoki建议的while ~feof(fid) data = textscan(fid, FormatString, nLines, 'Delimiter', ' '); %// Read nLines %// do some stuff end和ftell进行修复。这给出了与之前完全相同的错误：MATLAB无法读取超过大约43％的文件。然后我尝试使用fseek解决方案（也在下面建议），如下所示：

HeaderLines

这似乎是在数据中读取而不会产生错误;然而，它非常缓慢。

我并不完全确定我理解i = 0; while ~feof(fid) frewind(fid) data = textscan(fid, FormatString, nLines, 'Delimiter',' ', 'HeaderLines', i*nLines); %// do some stuff i = i + 1; end在此上下文中的作用，但它似乎使HeaderLines完全忽略了指定行之前的所有内容。在＆＃34;适当的＆＃34;中使用textscan时，似乎不会发生这种情况。方式（有或没有textscan和ftell）：在这两种情况下，它都试图从最后一个位置继续，但由于某些原因我无法理解而无济于事。

Answer 1

fseek只有当您准确知道要移动光标的位置（或多少字节）时，文件中的指针才有用。当您只想跳过已知长度的记录时，它对二进制文件非常有用。但是在文本文件中它比任何东西都更危险和令人困惑（除非你绝对确定每一行的大小相同，并且该行上的每个元素都在同一个确切的位置/列，但这并不是经常发生）。

有几种方法可以逐块读取文本文件：

1）使用`HeaderLines`选项

要简单地跳过文本文件中的一行，您可以使用HeaderLines的{{1}}参数，例如：

textscan

然后当你想要读第二个块时：

readFormat = '%f %f %f %f %f %f %f' ;   %// read format specifier
nLines = 10000 ;                        %// number of line to read per block

fileInfo = dir(fileName);

%// read FIRST block
fid = fileopen(fileName);
M = textscan(fid, readFormat, nLines,'Delimiter',' '); %// read the first 10000 lines
fclose(fid)
    %// Now do something with your "M" data

如果你有很多块，对于%// later read the SECOND block: fid = fileopen(fileName); M = textscan(fid, readFormat, nLines,'Delimiter',' ','HeaderLines', nLines); %// read lines 10001 to 20000 fclose(fid)块，只需改编：

Nth

如果有必要（如果你有很多块），只需在循环中编写最后一个版本。

请注意，如果在每次读取块后关闭文件，这是很好的（因此当您再次打开文件时，文件指针将从文件的开头开始）。如果您的处理可能需要很长时间或者可能会出错，那么在读取数据块后关闭文件会更安全（如果崩溃，您不希望文件保持打开太长或松散%// and then for the Nth BLOCK block: fid = fileopen(fileName); M = textscan(fid, readFormat, nLines,'Delimiter',' ','HeaderLines', (N-1)*nLines); fclose(fid) ）。

2）逐块读取（不关闭文件）

如果块的处理速度足够快且足够安全，以确保它不会被炸掉，那么你就可以关闭该文件了。在这种情况下，fid文件指针将停留在您停止的位置，因此您还可以：

读取一个块（不要关闭文件）：textscan
处理然后保存结果（并释放内存）
使用相同的来电阅读下一个区块：M = textscan(fid, readFormat, nLines)

在这种情况下，您不需要M = textscan(fid, readFormat, nLines)参数，因为headerlines将继续准确读取它停止的位置。

3）使用`textscan`和`ftell`

最后，您可以使用fseek开始在所需的精确位置读取文件，但在这种情况下，我建议将其与ftell结合使用。

fseek将在打开的文件中返回当前位置，因此请使用该位置知道您最后停止阅读的位置，然后在下次使用ftell时直接在此位置。类似的东西：

fseek

Textscan存档有大量的行

1 个答案:

1）使用`HeaderLines`选项

2）逐块读取（不关闭文件）

3）使用`textscan`和`ftell`

Textscan存档有大量的行

1 个答案:

1）使用HeaderLines选项

2）逐块读取（不关闭文件）

3）使用textscan和ftell

1）使用`HeaderLines`选项

3）使用`textscan`和`ftell`