AWK - 使用输入中的列值在输出上创建新列

时间:2017-11-10 11:52:27

标签: linux bash awk

我有一个这样的文件:

       Date     Time   Level Gridsize    Miss      Temp    Parameter ID
 1988-05-16 12:00:00      -3        1       0     27.060    -1            
 1988-05-16 12:00:00      -3        1       0     9.0300    -2            
 1988-05-16 12:00:00      -3        1       0     1.2000    -3            
 1988-05-17 12:00:00      -3        1       0     27.100    -1            
 1988-05-17 12:00:00      -3        1       0     9.0200    -2            
 1988-05-17 12:00:00      -3        1       0     1.2300    -3            
 1988-05-18 12:00:00      -3        1       0     27.190    -1            
 1988-05-18 12:00:00      -3        1       0     9.0400    -2            
 1988-05-18 12:00:00      -3        1       0     1.2200    -3            

这些是来自不同位置的传感器的温度数据。字段Parameter ID确定数据是否来自传感器-1,-2或-3。我将此数据导出到CSV文件进行分析。所需的格式是:

   Date     Time           -1       -2        -3    
1988-05-16 12:00:00      27.060    9.0300    1.2000                     
1988-05-17 12:00:00      27.100    9.0200    1.2300
1988-05-18 12:00:00      27.190    9.0400    1.2200   

按日期时间对数据进行分组,并在列中分隔Parameter ID的值。

我不确定这对AWK有多可行,但我曾经大部分时间都使用SSH来准备这些数据,AWK的解决方案对我来说非常有趣。另外,如果有其他工具在ba​​sh上实现这一点,我很感兴趣:)(sed,无论如何,但是必须使用原生linux命令,因为我不允许在服务器上安装任何东西)

我现在在做什么

现在我为每个传感器运行代码

$ awk '$NF == "-1" {print $1";"$2";"$6}' > netcdf_extract_1.csv
$ awk '$NF == "-2" {print $1";"$2";"$6}' > netcdf_extract_2.csv
$ awk '$NF == "-3" {print $1";"$2";"$6}' > netcdf_extract_3.csv

并在python上导入它们。然后我按日期和时间对它们进行分组并拿到我的桌子。

2 个答案:

答案 0 :(得分:2)

GNU awk 解决方案:

awk 'BEGIN{ PROCINFO["sorted_in"]="@ind_str_asc"; }
     NR > 1{ a[$1"\t"$2][$7]=$6 }
     END{ 
         printf "Date\tTime\t-1\t-2\t-3\n"; 
         for (i in a) print i,a[i][-1],a[i][-2],a[i][-3] 
     }' file | column -t
  • a[$1"\t"$2][$7]=$6
    • a - 多维数组
    • $1"\t"$2 - 通过连接日期/时间字段构建的数组键/索引
    • [$7] - 使用参数ID 字段值
    • 索引的内部数组
    • $6 - 来自 Temp 字段
    • 的关键值

输出:

Date        Time      -1      -2      -3
1988-05-16  12:00:00  27.060  9.0300  1.2000
1988-05-17  12:00:00  27.100  9.0200  1.2300
1988-05-18  12:00:00  27.190  9.0400  1.2200

答案 1 :(得分:1)

这是我的尝试:

awk 'BEGIN{print "Date\t","Time\t", "-1\t", "-2\t", "-3\t";
    PROCINFO["sorted_in"] = "@ind_str_asc" }
    NR > 1{ a[$1] = a[$1]" " $6 ; b[$1] = $2;next }
    END{ for ( i in a ) print i, b[i], a[i] }' file1 | column -t

输出:

Date        Time      -1      -2      -3
1988-05-16  12:00:00  27.060  9.0300  1.2000
1988-05-17  12:00:00  27.100  9.0200  1.2300
1988-05-18  12:00:00  27.190  9.0400  1.2200

由于Roman将所有内容都放在一个数组中,我将任务分成两个数组。