Question

我有一个文本文件，其中包含以下格式的行

*,[anything, even blanks],[dog|log|frog],[dog|log|frog],[0|1],[0|1],[0|1]

我想删除*（不区分大小写）具有相同值的重复行，即,[anything, even blanks],[dog|log|frog],[dog|log|frog],[0|1],[0|1],[0|1]

剩下的任何内容

例如，这是一个示例文本文件

test,bar,log,dog,0,0,0
one
foo,bar,log,dog,0,0,0
/^test$/,bar,log,dog,0,0,0
one
FOO,,frog,frog,1,1,1

生成的文本文件应该删除重复的foo（只要重复项被删除，顺序对我来说无关紧要，只留下1个唯一的）

test,bar,log,dog,0,0,0
one
/^test$/,bar,log,dog,0,0,0
one
FOO,,frog,frog,1,1,1

我能做到的最简单的bash命令是什么？

Answer 1

awk -F, '!seen[tolower($1)]++' file

Answer 2

您可以使用awk这样做（因为您不关心保留哪些重复项）：

awk -F, '{lines[tolower($1)]=$0}END{for (l in lines) print lines[l]}'

如果你想保留第一个：

awk -F, '{if (lines[tolower($1)]!=1) { print; lines[tolower($1)]=1 } }'

Answer 3

搜索

(?:(?<=\n)|^)(.*)((?:,(?:d|l|fr)og){2}(?:,[01]){3})(?=\n)([\s\S]*)(?<=\n).*\2(?:\n|$)

...并替换为

$1$2$3

Answer 4

#!/bin/bash

for line in $(cat $1)
do
    key=$( echo ${line%%,*} | awk '{print tolower($0)}')

    found=0
    for k in ${keys[@]} ; do [[ "$k" == "$key" ]] && found=1 && break ; done
    (( found )) && continue

    echo $line
    keys=( "${keys[@]}" "$key" )
done

使用数组而不是关联（哈希），这样性能较差。但似乎有效。

Answer 5

这可能适合你（GNU sed）：

cat -n file | 
sort -fk2,2 |
sed -r ':a;$!N;s/^.{7}([^,]*),[^,]*(,(d|l|fr)og){2}(,[01]){3}\n(.{7}\1,[^,]*(,(d|l|fr)og){2}(,[01]){3})$/\5/i;ta;P;D' |
sort -n |
sed -r 's/^.{7}//'

每行编号。
按第一个键排序（忽略大小写）
删除重复项（基于特定条件）
将缩小的文件按原始顺序排序
删除行号

使用正则表达式从行中提取子字符串，并删除具有重复子字符串的行

5 个答案: