读取制表符分隔的内容逐行与最后一列空字符串

时间:2018-01-23 16:57:22

标签: c fileparsing

我有这样的文件格式

1.9969199999999998  2.4613199999999997  130.81278270000001  AA
2.4613199999999997  2.5541999999999998  138.59131554109211  BB
2.5541999999999998  2.9953799999999995  146.83238401449094  CC
...........................

我必须在float中将前三列作为char,将最后一列作为C数组。所有列都是制表符分隔的,每行末尾都有一个换行符。一切都与fscanf(fp1, "%f\t%f\t%f\t%s\n", ...)一起正常工作,直到我在每一行的末尾都有一些文本(char字符串部分)。

有些情况下,我在文件中有一个空字符串,而不是AA / BB / CC。如何处理这种情况。我尝试了fscanf(fp1, "%f\t%f\t%f\t%s[^\n]\n", ...)和其他许多事情,但我无法找到正确的方法。你能帮帮我吗?

1 个答案:

答案 0 :(得分:2)

使用float而不是double会丢弃大约一半的数字。使用float得到6-7个十进制数字;您使用double获得15位以上的数字。

关于你的主要问题:使用fgets()(或POSIX getline())读取行,然后sscanf()解析读取的行。这样可以避免混淆。当输入是基于行的但不够规则时,不要使用fscanf()和family来读取数据 - 文件读取scanf()函数不关心换行符,即使你这样做也是如此。

请注意,sscanf()将返回3或4,表示行尾是否有字符串(或EOF012如果给出一个空字符串,或一个不以数字开头的字符串,或一个只包含一个或两个数字的字符串)。始终测试来自scanf()和朋友的返回值 - 但要小心这样做。查找您期望的值的数量(在此示例中为3或4),而不是“不是EOF”。

这大致导致:

#include <stdio.h>

int main(void)
{
    double d[3];
    char text[20];
    char line[4096];

    while (fgets(line, sizeof(line), stdin) != 0)
    {
        int rc = sscanf(line, "%lf %lf %lf %19s", &d[0], &d[1], &d[2], &text[0]);
        if (rc == 4)
            printf("%13.6f  %13.6f  %13.6f  [%s]\n", d[0], d[1], d[2], text);
        else if (rc == 3)
            printf("%13.6f  %13.6f  %13.6f  -NA-\n", d[0], d[1], d[2]);
        else
            printf("Format error: return code %d\n", rc);
    }
    return 0;
}

如果将此文件作为标准输入:

1.9969199999999998  2.4613199999999997  130.81278270000001  AA
2.4613199999999997  2.5541999999999998  138.59131554109211  BB
2.5541999999999998  2.9953799999999995  146.83238401449094  CC
19.20212223242525  29.3031323334353637 3940.41424344454647
19.20212223242525  29.3031323334353637 3940.41424344454647  PolyVinyl-PolySaccharide

输出是:

 1.996920       2.461320     130.812783  [AA]
 2.461320       2.554200     138.591316  [BB]
 2.554200       2.995380     146.832384  [CC]
19.202122      29.303132    3940.414243  -NA-
19.202122      29.303132    3940.414243  [PolyVinyl-PolySacch]

您可以调整输出格式以适合自己。请注意,即使文本超过19个字符,%19s也可以避免缓冲区溢出。