标签: awk terminal grep duplicates
我有一个包含带有URL的8M条目/记录的日志文件。我希望找到重复的网址(相同的网址),唯一不同的是其类型/文字大小写。
示例:
origin-www.example.com/this/is/hard.html origin-www.example.com/this/is/HARD.html origin-www.example.com/this/is/Hard.html
在这种情况下,有三个重复的区分大小写。
输出应该只是count -c和带有重复项的新文件。
答案 0 :(得分:3)
使用典型的awk '!seen[$0]++' file技巧与tolower()或toupper()相结合,使所有行都处于相同的情况:
awk '!seen[$0]++' file
tolower()
toupper()
$ awk '!seen[tolower($0)]++' file origin-www.example.com/this/is/hard.html
对于不同的输出和计数器,提供有效的所需输出。