我正在从一个文件读取到缓冲区然后我将读取的文本分成字符串,其中每个文本以新行结束形成一个新字符串。
这是我的代码:
int ysize = 20000;
char buffer2[ysize];
int flag = 0;
string temp_str;
vector<string> temp;
while(fread(buffer2, ysize, 1, fp2)>0){
//printf("%s", buffer2);
std::string str(buffer2);
//push the data into the vect
std::string::size_type pos = 0;
std::string::size_type prev = 0;
/*means the last read did not read a full sentence*/
if (flag == 1) {
if (buffer[0] == '\n') {
//this means we have read the last senstense correctly, directly go to the next
}
else{
if((pos = str.find("\n", prev)) != std::string::npos){
temp_str+=str.substr(prev, pos - prev);
temp.push_back(temp_str);
prev = pos + 1;
}
while ((pos = str.find("\n", prev)) != std::string::npos)
{
temp.push_back(str.substr(prev, pos - prev));
prev = pos + 1;
}
// To get the last substring (or only, if delimiter is not found)
temp.push_back(str.substr(prev));
if (buffer2[19999] != '\n') {
//we did not finish readind that query
flag = 1;
temp_str = temp.back();
temp.pop_back();
}
else{
flag = 0;
}
}
}
else{
while ((pos = str.find("\n", prev)) != std::string::npos)
{
temp.push_back(str.substr(prev, pos - prev));
prev = pos + 1;
}
// To get the last substring (or only, if delimiter is not found)
temp.push_back(str.substr(prev));
if (buffer2[19999] != '\n') {
//we did not finish readind that query
flag = 1;
temp_str = temp.back();
temp.pop_back();
}
else{
flag = 0;
}}
}
问题是这不能正确读取数据,它几乎消除了一半的文本。
我不确定我在这里缺少什么。我的想法是逐块读取数据,然后逐行划分,这是在while循环中徘徊的。我正在使用标志处理溢出情况。
答案 0 :(得分:1)
首先请注意, fread 并不会神奇地创建一个以null结尾的字符串,这意味着 std :: string str(buffer2)将导致未定义的行为。所以你应该做类似
的事情int nread = 0;
while( (nread =fread(buffer2, ysize-1, 1, fp2)) > 0 ){
buffer2[nread] = 0;
std::string str(buffer2);
...
为了避免在此处实现的缓冲方法,您可以使用fgets逐行读取,然后您只需要担心连接比读取缓冲区长的行。
除了我发现一个问题之外:如果缓冲区中的第一个字符是换行符,标志== 1 ,则跳过整个当前缓冲区,如果仍有数据则读取下一个缓冲区可用。 (我假设用 buffer [0] 你实际上是指buffer2 [0])。