Question

我想从文件中删除重复的行，而不对文件进行排序。

为什么这对我有用的示例：从Bash $HISTFILE中删除重复项而不更改时间顺序。

这个页面有一个单行：

http://sed.sourceforge.net/sed1line.txt

这是单行：

sed -n 'G; s/\n/&&/; /^\([ -~]*\n\).*\n\1/d; s/\n//; h; P'

我问了一个系统管理员，他告诉我“你只是复制剧本并且它有效，不要对此进行哲学思考”，这很好，所以我在这里问这是一个开发者论坛，我相信人们可能会像我一样，怀疑使用他们不理解的东西：

请你提供一个伪代码解释“黑魔法”脚本正在做什么，好吗？我试着在脑海中解析咒语，但尤其是中心部分很难。

Answer 1

我会注意到这个脚本似乎不适用于我当前语言环境中的sed（GNU sed 4.1.5）副本。如果我使用LC_ALL=C运行它，它可以正常工作。

这是脚本的注释版本。 sed基本上有两个寄存器，一个叫做“模式空间”，用于（基本上）当前输入行，另一个是“保留空间”，脚本可以用来临时存储等。 / p>

sed -n '                    # -n: by default, do not print
    G                       # Append hold space to current input line
    s/\n/&&/                # Add empty line after current input line
    /^\([ -~]*\n\).*\n\1/d  # If the current input line is repeated in the hold space, skip this line
                            # Otherwise, clean up for storing all input in hold space:
    s/\n//                  # Remove empty line after current input line
    h                       # Copy entire pattern space back to hold space
    P                       # Print current input line'

我想添加和删除空行是为了使中心模式可以保持相对简单（你可以指望在当前行之后和匹配行开始之前有一个换行符。）

所以基本上，整个输入文件（没有重复）在保持空间中保持（以相反的顺序），如果在模式的其余部分中的任何地方找到模式空间的第一行（当前输入行）空间（当脚本开始处理此行时从保留空间复制），我们跳过它并重新开始。

条件中的正则表达式可以进一步分解;

^    # Look at beginning of line (i.e. beginning of pattern space)
\(   # This starts group \1
[ -~] # Any printable character (in the C locale)
*     # Any number of times
\n    # Followed by a newline
\)   # End of group \1 -- it contains the current input line
.*\n # Skip any amount of lines as necessary
\1   # Another occurrence of the current input line, with newline and all

如果此模式匹配，脚本将丢弃模式空间并从下一个输入行（d）重新开始。

通过将[ -~]更改为[[:print:]]

，您可以让它独立于区域设置工作

Answer 2

代码对我不起作用，可能是由于某些语言环境设置，但这样做：

                          vvv
sed -n 'G; s/\n/&&/; /^\([^\n]*\n\).*\n\1/d; s/\n//; h; P'
                          ^^^

让我们首先通过这本书（即sed信息页面）将其翻译成perlish。

# The standard sed loop
my $hold = "";
while ($my pattern = <>) {
    chomp $pattern;

    $pattern = "$pattern\n$hold";           # G
    $pattern =~ s/(\n)/$1$1/;               # s/\n/&&/
    if ($pattern =~ /^([^\n]*\n).*\n\1/) {  # /…/
        next;                               # d
    }
    $pattern =~ s/\n//;                     # s/\n//
    $hold = $pattern;                       # h
    $pattern =~ /^([^\n]*\n?)/; print $1;   # P
}

好的，基本思路是保持空间包含到目前为止看到的所有行。

G ：在每个周期的开头，将保留空间附加到当前行。现在我们有一个字符串，由当前行和它之前的所有唯一行组成。
s/\n/&&/ ：将分隔它们的换行符转换为双换行符，以便我们可以匹配后续和非后续重复项，请参阅下一步。
^$[^\n]*\n$.*\n\1/ ：查看以下内容的当前文字：在所有行的开头（^）查找包含尾随换行符的第一行（{{ 1}}），然后是任何内容（$[^\n]*\n$），然后是换行符（.*），然后是相同的第一行，包括再次重复换行符（\n）。如果两个后续行相同，则正则表达式中的\1将匹配空字符串，但由于前一步骤中的换行符复制，两个.*仍将匹配。所以基本上这会询问第一行是否会再出现在其他行中。
\n ：如果匹配，则为重复行。我们丢弃此输入，将保持空间保持为目前为止看到的所有唯一行的缓冲区，并继续下一行输入。
d ：否则，我们会继续，然后将双换行符重新转换为一个换行符。
s/\n// ：我们在所有唯一行列表中包含当前行。
h ：最后打印这个新的唯一一行，直到换行符。

Answer 3

对于要解决的实际问题，这是一个更简单的解决方案（至少它看起来如此）与awk：

awk '!_[$0]++' FILE

简而言之_[$0]是每个唯一一行的计数器（外观），对于第二次出现的任何行（$0 _[$0] >= 1，因此!_[$0]进行评估至false，导致除第一次出现外不打印。

请参阅https://gist.github.com/ryenus/5866268（我最近访问过的论坛可以获得奖励。）

解读这个sed单行

3 个答案: