Question

我有一个包含带有URL的8M条目/记录的日志文件。我希望找到重复的网址（相同的网址），唯一不同的是其类型/文字大小写。

示例：

origin-www.example.com/this/is/hard.html
origin-www.example.com/this/is/HARD.html
origin-www.example.com/this/is/Hard.html

在这种情况下，有三个重复的区分大小写。

输出应该只是count -c和带有重复项的新文件。

Answer 1

使用典型的awk '!seen[$0]++' file技巧与tolower()或toupper()相结合，使所有行都处于相同的情况：

$ awk '!seen[tolower($0)]++' file
origin-www.example.com/this/is/hard.html

对于不同的输出和计数器，提供有效的所需输出。