我有一个应用程序,它从另一个应用程序同时写入的文本文件中读取。读取文件的应用程序使用C - fopen以文本模式打开它。文件中的行可以很大,例如最多几百兆。出于这个原因,我们有一个函数,使用fgets从文件中读取4K的块,并将其附加到字符串对象中,直到它设法读取完整的行。写入文件的应用程序可能在进行读取尝试时写入了部分行。 Out自定义ReadLine函数通过检测文件结束,将文件指针重新设置为最后已知的正确位置并丢弃已经读取的文本来处理此方案。
以下是该功能的外观:
#define MAX_BUF_SIZE 4096
bool ReadLine(FILE* fp, std::string& result, bool& isEof) {
result.clear();
long const lastOffset = ftell(fp);
bool hasReadOneLine = false;
isEof = false;
debug_print(lastOffset);
while (!hasReadOneLine && !isEof) {
char dataRead[MAX_BUF_SIZE];
memset(dataRead, 0, sizeof(dataRead));
if (fgets(dataRead, MAX_BUF_SIZE, fp) == NULL) {
if (feof(fp)) {
debug_print("Flag 1");
isEof = true;
} else {
debug_print("Flag 2");
result.clear();
fseek(fp, lastOffset, SEEK_SET); //reset the file pointer to where it was
return false;
}
}
result += dataRead;
hasReadOneLine = (result[result.length()-1] == '\n');
} // end loop
if (!hasReadOneLine) {
debug_print("Flag 3");
result.clear();
fseek(fp, lastOffset, SEEK_SET); //reset the file pointer to where it was
return false;
}
// drop the new-line character ...
if (result[ result.length()-1] == '\n') {
result.resize(result.size() - 1);
}
return true;
}
问题: 我遇到了一个场景,在从文件中读取完整一行之后,ReadLine()函数在再次调用读取下一行时返回先前读取行的最后一个块。我记录了ftell()返回的lastOffset的值,并注意到在那种罕见的情况下,fgets没有将文件指针移动到它读取的行的末尾。
我添加了一些调试行,但在我的情况下,只有打印的东西是lastOffset值。
在ReadLine返回不完整行的调用中,lastOffset的值为:21563617 不完整线的长度为:920
在返回完整行之前的调用中,lastOffset的值为:21442207 此前调用中读取的行长度为:122331(包括换行符)
我的问题是:有没有人遇到过类似的问题?您对可能出现的问题有什么看法?我不一定在寻找一个完整的答案,而只是关于可能出现问题的一些指示。
**更新**
我设法用一个小实用程序重现问题,以4K块的形式写入文件并以10毫秒的休眠间隔写入,而另一个程序(使用上述函数)同时从同一文件读取。
看起来在执行fseek()重新设置文件指针是上面函数中的一个错误选项,因为将文件指针重新设置为先前的位置并不一定能清除C库自己的内部缓冲区。我仍然不完全相信这种解释,因为在某些情况下(重复案例)文件指针重置从未发生过。
无论如何,我在网上做了一些搜索,一些线程似乎建议使用较低级别的流并处理库本身的缓冲。所以我已经改变了上面函数的实现和它的其他助手来做到这一点。我现在使用Windows的_sopen_s()/ _ read()/ _ lseek()和Linux / Solaris的标准POSIX接口来执行低级IO处理。随着这些变化似乎工作,我不再看到问题。
谢谢大家的时间。非常感谢您的所有投入。
苏曼
**更新2 **
那么我现在肯定知道原因。问题是如果在文本模式下打开文件,ftell()和fseek()是不可靠的。如果文件以二进制模式打开,那么上面的函数可以正常工作。
以下是其他人在此之前发现此问题的文章的链接:http://arstechnica.com/civis/viewtopic.php?f=20&t=420490
这是一件好事,因为现在我有一个需要更改1行而不是200行的修复程序! : - )
答案 0 :(得分:0)
如果您的最大行数小于MAX_BUF_SIZE
,那么您可能需要考虑一种可以大大简化实施的替代解决方案。简而言之,请使用fread
代替fgets
:
void ReadLine(FILE* fp, std::string& result, bool& isEof)
{
static char dataRead[MAX_BUF_SIZE] = {0};
static int dataindex = 0;
int datalength = fread(dataRead,MAX_BUF_SIZE-dataindex,1,fp);
for (int i=0; dataRead[i]!='\n'; i++)
result += dataRead[i];
dataindex = result.length()+1;
memmove(dataRead,dataRead+dataindex,datalength-dataindex);
isEof = feof(fp);
}
备注:强>
此实现假定最后一行(因此文件本身)以换行符结尾。
您可以使用dataRead
/ dataindex
作为循环缓冲区,以避免memmove
操作。