我有这个文件,在第一列中有一对由空格分隔的字符串,另外两列有值。 我想创建一个新文件,其中字符串对在同一行中匹配,而不管它们的顺序如何。 例如,打印包含对" GAT_1 GAT_2"的行,以及包含" GAT_2 GAT_1"的行。在它的旁边。 在将每个字符串分配给给定对的变量之后,如何在不重复的情况下将它们与不同的行进行比较?
# discard headers
foreach $line (@file) {
@columns = split (/\t/, $line);
@strings = split (/\s/, $columns[0]);
# pseudocode:
foreach line that has pair "$strings[0] $strings[1]" {
print $line,"\t", and $line where pair is "$strings[1] $strings[0]"
Input:
pair val1 val2
GAT_1 GAT_2 0.2 4.5
GAT_1 GAT_3 0.1 0.2
GAT_4 GAT_5 0.9 7.5
GAT_5 GAT_4 0.5 8.3
BLAC BABA 8.3 1.3
BABA BLAC 8.9 1.1
GAT_2 GAT_1 1.2 2.1
GAT_3 GAT_1 3.4 4.3
Ouput:
pair val1 val2 pair val1 val2
GAT_1 GAT_2 0.2 4.5 GAT_2 GAT_1 1.2 2.1
GAT_1 GAT_3 0.1 0.2 GAT_3 GAT_1 3.4 4.3
GAT_4 GAT_5 0.9 7.5 GAT_5 GAT_4 0.5 8.3
BLAC BABA 8.3 1.3 BABA BLAC 8.9 1.1
答案 0 :(得分:0)
这是解决此问题的一种方法,它适用于任意数量的值列。基本方法是我在comment中建议的,即标准化键,然后将我们找到的任何值推送到数组上。
use strict;
use warnings;
my %unique;
while (<DATA>) {
chomp;
next unless /^\S/;
my @fields = split;
my $key = join(' ', sort(splice(@fields, 0, 2)));
push(@{$unique{$key}}, @fields);
}
for my $key (keys(%unique)) {
print join("\t", $key, @{$unique{$key}});
print "\n";
}
__DATA__
pair val1 val2
GAT_1 GAT_2 0.2 4.5
GAT_1 GAT_3 0.1 0.2
GAT_4 GAT_5 0.9 7.5
GAT_5 GAT_4 0.5 8.3
BLAC BABA 8.3 1.3
BABA BLAC 8.9 1.1
GAT_2 GAT_1 1.2 2.1
GAT_3 GAT_1 3.4 4.3
输出:
GAT_4 GAT_5 0.9 7.5 0.5 8.3
GAT_1 GAT_2 0.2 4.5 1.2 2.1
BABA BLAC 8.3 1.3 8.9 1.1
GAT_1 GAT_3 0.1 0.2 3.4 4.3
答案 1 :(得分:-2)
https://stackoverflow.com/a/34189380/103780的细微变化会给你你想要的东西:
(未测试):
my @keys = splice(@fields, 0, 2);
my $key = join(' ', @keys);
my $skey = join (' ', sort @keys);
push(@{$unique{$skey}{$key}}, @fields);
for my $skey (keys(%unique)) {
for my $key (keys(%unique{$skey})) {
print join("\t", $key, @{$unique{$skey}{$key}});
print "\t";
}
print "\n";
}