Question

我有一个包含逗号分隔列的表，我想将指定列中的逗号分隔值分隔为新行。例如，给定的表是

Name    Start   Name2

A   1,2 X,a

B   5   Y,b

C   6,7,8   Z,c

我需要将第2列中的逗号分隔值分开以获得下面的表格

Name    Start   Name2

A   1   X,a

A   2   X,a

B   5   Y,b

C   6   Z,c

C   7   Z,c

C   8   Z,c

我想知道是否有任何shell脚本解决方案，以便我可以创建一个工作流管道。

注意：原始表可能包含3列以上。

Answer 1

假设输入和输出的格式没有改变：

awk 'BEGIN{FS="[ ,]"} {print $1, $2, $NF; print $1, $3, $NF}' input_file

<强>输入：

input_file：

A 1,2 X    
B 5,6 Y

<强>输出：

A 1 X
A 2 X
B 5 Y
B 6 Y

<强>解释：

awk：调用awk，一种操纵行（记录）和字段的工具
'...'：由单引号括起的内容作为说明提供给awk
'BEGIN{FS="[ ,]"}：在阅读任何行之前，请告诉awk使用空格和逗号作为分隔符; FS代表Field Separator。
{print $1, $2, $NF; print $1, $3, $NF}：对于读取的每个输入行，在一行上打印第1个，第2个和最后一个字段，然后在下一行打印第1个，第3个和最后一个字段。 NF代表字段数，因此$NF是最后一个字段。
input_file：将输入文件的名称作为参数提供给awk。

响应更新的输入格式：

awk 'BEGIN{FS="[ ,]"} {print $1, $2, $4","$5; print $1, $3, $4","$5}' input_file

Answer 2

在Runner修改原始问题之后，另一种方法可能如下所示：

#!/bin/sh

# Usage $0 <file> <column>
#

FILE="${1}"

COL="${2}"

# tokens separated by linebreaks
IFS="
"

for LINE in `cat ${FILE}`; do
    # get number of columns
    COLS="`echo ${LINE} | awk '{print NF}'`"

    # get actual field by COL, this contains the keys to be splitted into individual lines
    # replace comma with newline to "reuse" newline field separator in IFS
    KEYS="`echo ${LINE} | cut -d' ' -f${COL}-${COL} | tr ',' '\n'`"

    COLB=$(( ${COL} - 1 ))
    COLA=$(( ${COL} + 1 ))

    # get text from columns before and after actual field
    if [ ${COLB} -gt 0 ]; then
            BEFORE="`echo ${LINE} | cut -d' ' -f1-${COLB}` "
    else
            BEFORE=""
    fi

    AFTER=" `echo ${LINE} | cut -d' ' -f${COLA}-`"

    # echo "-A: $COLA ($AFTER) | B: $COLB ($BEFORE)-"

    # iterate keys and re-build original line
    for KEY in ${KEYS}; do
            echo "${BEFORE}${KEY}${AFTER}"
    done
done

使用此shell文件，您可以执行所需的操作。这会将第2列拆分为多行。

./script.sh input.txt 2

如果您想使用管道通过标准输入传递输入（例如，一次性拆分多个列），您可以将6.行更改为：

if [ "${1}" == "-" ]; then
    FILE="/dev/stdin"
else 
    FILE="${1}"
fi

以这种方式运行：

./script.sh input.txt 1 | ./script.sh - 2 | ./script.sh - 3

注意切割对字段分隔符非常敏感。如果该行以空格字符开头，则第1列将为“”（空）。如果字段由空格和制表符的混合分隔，则此脚本也会有其他问题。在这种情况下（如上所述）过滤输入资源（以便字段仅由一个空格字符分隔）应该这样做。如果这是不可能的，或者每列中的数据也包含空格字符，则脚本可能会变得更复杂。

使用shell脚本将逗号分隔的单元格分隔为新行

2 个答案: