查找仅包含文本大小写差异的重复记录

时间:2016-11-10 13:58:40

标签: awk terminal grep duplicates

我有一个包含带有URL的8M条目/记录的日志文件。我希望找到重复的网址(相同的网址),唯一不同的是其类型/文字大小写。

示例:

origin-www.example.com/this/is/hard.html
origin-www.example.com/this/is/HARD.html
origin-www.example.com/this/is/Hard.html

在这种情况下,有三个重复的区分大小写。

输出应该只是count -c和带有重复项的新文件。

1 个答案:

答案 0 :(得分:3)

使用典型的awk '!seen[$0]++' file技巧与tolower()toupper()相结合,使所有行都处于相同的情况:

$ awk '!seen[tolower($0)]++' file
origin-www.example.com/this/is/hard.html

对于不同的输出和计数器,提供有效的所需输出。