我有一个文本文件,其中包含以下格式的行
*,[anything, even blanks],[dog|log|frog],[dog|log|frog],[0|1],[0|1],[0|1]
我想删除*
(不区分大小写)具有相同值的重复行,即,[anything, even blanks],[dog|log|frog],[dog|log|frog],[0|1],[0|1],[0|1]
例如,这是一个示例文本文件
test,bar,log,dog,0,0,0
one
foo,bar,log,dog,0,0,0
/^test$/,bar,log,dog,0,0,0
one
FOO,,frog,frog,1,1,1
生成的文本文件应该删除重复的foo
(只要重复项被删除,顺序对我来说无关紧要,只留下1个唯一的)
test,bar,log,dog,0,0,0
one
/^test$/,bar,log,dog,0,0,0
one
FOO,,frog,frog,1,1,1
我能做到的最简单的bash命令是什么?
答案 0 :(得分:5)
awk -F, '!seen[tolower($1)]++' file
答案 1 :(得分:1)
您可以使用awk
这样做(因为您不关心保留哪些重复项):
awk -F, '{lines[tolower($1)]=$0}END{for (l in lines) print lines[l]}'
如果你想保留第一个:
awk -F, '{if (lines[tolower($1)]!=1) { print; lines[tolower($1)]=1 } }'
答案 2 :(得分:0)
搜索
(?:(?<=\n)|^)(.*)((?:,(?:d|l|fr)og){2}(?:,[01]){3})(?=\n)([\s\S]*)(?<=\n).*\2(?:\n|$)
...并替换为
$1$2$3
答案 3 :(得分:0)
#!/bin/bash
for line in $(cat $1)
do
key=$( echo ${line%%,*} | awk '{print tolower($0)}')
found=0
for k in ${keys[@]} ; do [[ "$k" == "$key" ]] && found=1 && break ; done
(( found )) && continue
echo $line
keys=( "${keys[@]}" "$key" )
done
使用数组而不是关联(哈希),这样性能较差。但似乎有效。
答案 4 :(得分:0)
这可能适合你(GNU sed):
cat -n file |
sort -fk2,2 |
sed -r ':a;$!N;s/^.{7}([^,]*),[^,]*(,(d|l|fr)og){2}(,[01]){3}\n(.{7}\1,[^,]*(,(d|l|fr)og){2}(,[01]){3})$/\5/i;ta;P;D' |
sort -n |
sed -r 's/^.{7}//'