今天我正在解决纠正有少量未知数的文件中的数据错误的问题。未知数是每个文件中的字段数,以及哪些字段和记录具有字符串" ---"。
数据的一个例子是:
1 2 1 39.6406 1 38.8512 1 38.3479 1 37.9744
2 1 4 39.1527 3 38.7329 2 38.3479 2 37.9744
3 3 3 39.5186 2 38.8512 3 38.2079 3 37.6385
4 4 2 39.6406 4 38.4964 --- 37.7414 --- 36.7149
5 5 --- 40.2504 --- 39.0286 --- 38.4879 --- 38.1004
所需的输出是:
1 2 1 39.6406 1 38.8512 1 38.3479 1 37.9744
2 1 4 39.1527 3 38.7329 2 38.3479 2 37.9744
3 3 3 39.5186 2 38.8512 3 38.2079 3 37.6385
4 4 2 39.6406 4 38.4964 --- --- --- ---
5 5 --- --- --- --- --- --- --- ---
我尝试过使用for循环,例如:
awk '{for (i = NF; i >= 1; i--){if ($i=="---")$(i-1)="---"}{print $0}}' file
导致:
1 2 1 39.6406 1 38.8512 1 38.3479 1 37.9744
2 1 4 39.1527 3 38.7329 2 38.3479 2 37.9744
3 3 3 39.5186 2 38.8512 3 38.2079 3 37.6385
---
---
我也试过了:
awk '{for (i=1;i<=NF;i++){if ($i=="---")$(i+1)="---"}{print $0}}' file
导致错误:
"awk: program limit exceeded: maximum number of fields size=32767"
FILENAME="file" FNR=4 NR=4
1 2 1 39.6406 1 38.8512 1 38.3479 1 37.9744
2 1 4 39.1527 3 38.7329 2 38.3479 2 37.9744
3 3 3 39.5186 2 38.8512 3 38.2079 3 37.6385
在我的第一次尝试中,for循环一直到第一个字段,在第二次尝试中,带有所需字符串的记录有一个无限循环。
我的直觉是我需要应用休息声明,但经过几个小时的搜索,我找不到一个帮助我的例子。我知道有一种方法可以给猫皮肤,所以如果你知道更好的方法来实现我的目标,请记住,有多个文件具有不同的字段数,或者如果你可以提供一个break语句的例子我的其中一个for循环,我和其他寻找一个例子的人,将非常感激。
谢谢
答案 0 :(得分:4)
这应该有效
$ awk '{for(i=3;i<NF;i+=2) if($i=="---") $(i+1)=$i}1' file |
column -t
1 2 1 39.6406 1 38.8512 1 38.3479 1 37.9744
2 1 4 39.1527 3 38.7329 2 38.3479 2 37.9744
3 3 3 39.5186 2 38.8512 3 38.2079 3 37.6385
4 4 2 39.6406 4 38.4964 --- --- --- ---
5 5 --- --- --- --- --- --- --- ---
答案 1 :(得分:2)
您只需要一个简单的替换,这对于sed来说是一个理想的工作:
$ sed -E 's/(-+ +)[^ ]+/\1\1 /g' file
1 2 1 39.6406 1 38.8512 1 38.3479 1 37.9744
2 1 4 39.1527 3 38.7329 2 38.3479 2 37.9744
3 3 3 39.5186 2 38.8512 3 38.2079 3 37.6385
4 4 2 39.6406 4 38.4964 --- --- --- ---
5 5 --- --- --- --- --- --- --- ---