grep,awk-输出第一行

时间:2019-04-04 15:03:14

标签: awk grep

我有数千个不同大小的图像链接。每个第一链接具有最大的图像大小。他们看起来像这样:

https://userapi.com/c84472122/v844721232/143ffc/4Sgsfsf-EyA.jpg
https://userapi.com/c84472122/v844721232/143ffb/IdLDJU4usI8.jpg
https://userapi.com/c84612122/v846121642/13684b/jq5FRWnwzIY.jpg
https://userapi.com/c84612122/v846121642/13684a/wmKy022Qaik.jpg
https://userapi.com/c84612122/v846121642/136849/IZQrSossuMw.jpg
https://userapi.com/c85043622/v850436595/4df71/7y7qHUotpuI.jpg
https://userapi.com/c85043622/v850436595/4df70/nowGp0MVeO0.jpg
https://userapi.com/c85043622/v850436595/4df6f/HnkYnd2WQ_s.jpg
https://userapi.com/c84913622/v849136355/bd12b/sqyYycXM9ug.jpg
https://userapi.com/c84913622/v849136355/bd12a/7uqIIMykk50.jpg
https://userapi.com/c84913622/v849136355/bd129/f_XDzdpgH_g.jpg
https://userapi.com/c85003222/v850032096/b93df/xkQGlX6d6Ek.jpg
https://userapi.com/c85003222/v850032096/b93de/CWhHXRm99Lw.jpg
https://userapi.com/c85003222/v850032096/b93dd/RxBudOclDo0.jpg

因此,我不需要最大的图像。我只需要离开每个第一个链接。我该怎么办?

我尝试过:

grep -m 1 “c84472122\c84612122\c85043622\c84913622\c85003222” file.txt

但是我给了一个错误

1 个答案:

答案 0 :(得分:1)

当定界符为<正斜杠>时,图像位于第4和第5字段参考中。下一行比较这些字段,并在其中一个字段不同的情况下进行打印。

$ awk -F/ '($4!=a || $5!=b) { print; a=$4; b=$5 }' file

这将输出:

https://userapi.com/c84472122/v844721232/143ffc/4Sgsfsf-EyA.jpg
https://userapi.com/c84612122/v846121642/13684b/jq5FRWnwzIY.jpg
https://userapi.com/c85043622/v850436595/4df71/7y7qHUotpuI.jpg
https://userapi.com/c84913622/v849136355/bd12b/sqyYycXM9ug.jpg
https://userapi.com/c85003222/v850032096/b93df/xkQGlX6d6Ek.jpg