我有一个这样的文件:
Date Time Level Gridsize Miss Temp Parameter ID
1988-05-16 12:00:00 -3 1 0 27.060 -1
1988-05-16 12:00:00 -3 1 0 9.0300 -2
1988-05-16 12:00:00 -3 1 0 1.2000 -3
1988-05-17 12:00:00 -3 1 0 27.100 -1
1988-05-17 12:00:00 -3 1 0 9.0200 -2
1988-05-17 12:00:00 -3 1 0 1.2300 -3
1988-05-18 12:00:00 -3 1 0 27.190 -1
1988-05-18 12:00:00 -3 1 0 9.0400 -2
1988-05-18 12:00:00 -3 1 0 1.2200 -3
这些是来自不同位置的传感器的温度数据。字段Parameter ID
确定数据是否来自传感器-1,-2或-3。我将此数据导出到CSV文件进行分析。所需的格式是:
Date Time -1 -2 -3
1988-05-16 12:00:00 27.060 9.0300 1.2000
1988-05-17 12:00:00 27.100 9.0200 1.2300
1988-05-18 12:00:00 27.190 9.0400 1.2200
按日期和时间对数据进行分组,并在列中分隔Parameter ID
的值。
我不确定这对AWK有多可行,但我曾经大部分时间都使用SSH来准备这些数据,AWK的解决方案对我来说非常有趣。另外,如果有其他工具在bash上实现这一点,我很感兴趣:)(sed,无论如何,但是必须使用原生linux命令,因为我不允许在服务器上安装任何东西)
我现在在做什么
现在我为每个传感器运行代码
$ awk '$NF == "-1" {print $1";"$2";"$6}' > netcdf_extract_1.csv
$ awk '$NF == "-2" {print $1";"$2";"$6}' > netcdf_extract_2.csv
$ awk '$NF == "-3" {print $1";"$2";"$6}' > netcdf_extract_3.csv
并在python上导入它们。然后我按日期和时间对它们进行分组并拿到我的桌子。
答案 0 :(得分:2)
GNU awk
解决方案:
awk 'BEGIN{ PROCINFO["sorted_in"]="@ind_str_asc"; }
NR > 1{ a[$1"\t"$2][$7]=$6 }
END{
printf "Date\tTime\t-1\t-2\t-3\n";
for (i in a) print i,a[i][-1],a[i][-2],a[i][-3]
}' file | column -t
a[$1"\t"$2][$7]=$6
:
a
- 多维数组$1"\t"$2
- 通过连接日期/时间字段构建的数组键/索引[$7]
- 使用参数ID 字段值$6
- 来自 Temp 字段输出:
Date Time -1 -2 -3
1988-05-16 12:00:00 27.060 9.0300 1.2000
1988-05-17 12:00:00 27.100 9.0200 1.2300
1988-05-18 12:00:00 27.190 9.0400 1.2200
答案 1 :(得分:1)
这是我的尝试:
awk 'BEGIN{print "Date\t","Time\t", "-1\t", "-2\t", "-3\t";
PROCINFO["sorted_in"] = "@ind_str_asc" }
NR > 1{ a[$1] = a[$1]" " $6 ; b[$1] = $2;next }
END{ for ( i in a ) print i, b[i], a[i] }' file1 | column -t
输出:
Date Time -1 -2 -3
1988-05-16 12:00:00 27.060 9.0300 1.2000
1988-05-17 12:00:00 27.100 9.0200 1.2300
1988-05-18 12:00:00 27.190 9.0400 1.2200
由于Roman将所有内容都放在一个数组中,我将任务分成两个数组。