Question

我有大量文件使用相同的制表符分隔格式：

Column A    Column B
Data_A1      Data_B1
Data_A2      Data_B2
Data_A3      Data_B3

这些文件的行数相同。

我想将每个文件的B列数据编译成一个制表符分隔的文件。现在，我最好的计划是沿着以下几行写一个Perl脚本：

#!/usr/bin/perl

my $file = shift @ARGV;
my $ref = shift @ARGV;
open ( FILE, $file ); # FILE WITH FORMAT DESCRIBED ABOVE
while (<FILE>) {
        chomp;
        my @a = split("\t", $_);
        push(@B, $a[1]);
}
close FILE;

my $counter = 0;
open (REF, $ref); # TAB-DELIMITED COMPILATION OF EVERY FILE'S COLUMN B
while (<REF>) {
        chomp;
        print "$_\t$B[$counter]\n";
}
close REF;

然后，编写一个BASH脚本，循环遍历所有文件并保存Perl脚本的输出作为shell循环的下一次迭代的输入：

#!/bin/bash

for file in *.txt 
     do 
          perl Script.pl $file Infile > Temp
          mv Temp Infile
     done

但这对于如此简单的事情来说感觉就像是一项巨大的工作。是否有一个简单的Unix命令可以做同样的事情？

预期产出：

File1_Column_B    File2_Column_B    File3_Column_B    ...
Data_B1           Data_B1           Data_B1           ...
Data_B2           Data_B2           Data_B2           ...
Data_B3           Data_B3           Data_B3           ...
...

Answer 1

击：

paste -d'\t' input*.txt | 
awk -F'\t' '{for (i=2; i<=NF; i+=2) printf "%s%s", $i, FS; print ""}'

将所有文件粘贴在一起，包含所有列，然后使用awk仅提取偶数列。

Answer 2

您可以在Perl中完成所有工作：

#!/usr/bin/perl
use warnings;
use strict;

my ($result, @input) = @ARGV;        # output input1 input2...

my @table;

for my $i (0 .. $#input) {
    my $infile = $input[$i];
    open my $IN, '<', $infile or die "$infile: $!";
    while (<$IN>) {
        $table[ $. - 1 ][$i] = (split)[1];
    }
}

open my $OUT, '>', $result or die "$result: $!";
for my $row (@table) {
    print {$OUT} join("\t", @$row), "\n";
}
close $OUT;

Answer 3

您可以使用awk选择所需的列，并paste将它们粘贴在一起。

示例：

paste -d '\t' <(awk '{print $2}' file1.tsv) <(awk '{print $3}' file2.tsv)

注意： <(command)允许将命令的输出用作文件。

Unix - 将许多文件中的单个列编译为单个制表符分隔的文件

3 个答案: