确定两条主要股线的匹配与不匹配的比率?

时间:2012-08-14 01:48:37

标签: string perl dna-sequence

  

可能重复:
  How to plot a gene graph for a DNA sequence say ATGCCGCTGCGC?

我试着编写一个Perl脚本,比较两个DNA序列(每个长度可以说60个字符)对齐,然后显示序列的匹配与不匹配的比例。但我没有太多运气。如果它有助于我上传我的代码,但它没用。这是我试图在下面实现的一个例子。

例如

A T C G T A C
| | | | | | |
T A C G A A C

所以上面例子的匹配将是4.而不匹配是:3。给它一个4.3的比率。

非常感谢任何帮助。感谢。

7 个答案:

答案 0 :(得分:0)

一般情况下,请发布您的代码。它确实有帮助。在任何情况下,这样的事情应该按照你的要求行事:

#!/usr/bin/perl -w
use strict;
my $d1='ATCGTAC';
my $d2='TACGAAC';

my @dna1=split(//,$d1);
my @dna2=split(//,$d2);

my $matches=0;
for (my $i=0; $i<=$#dna1; $i++) {
    $matches++ if $dna1[$i] eq $dna2[$i];
}
my $mis=scalar(@dna1)-$matches;
print "Matches/Mismatches: $matches/$mis\n";

请记住,虽然4比3的比例肯定 4.3但是〜1.3。如果你在输入文件格式上发布一些信息,我会更新我的答案,包括从文件中解析序列的行。

答案 1 :(得分:0)

只需获取其中一个字符串的长度(我们假设字符串长度相等,对吧?),然后使用substr进行迭代。

my @strings = ( 'ATCGTAC', 'TACGAAC' );

my $matched;
foreach my $ix ( 0 .. length( $strings[0] ) - 1 ) {
  $matched++
    if   substr( $strings[0], $ix, 1 ) eq substr( $strings[1], $ix, 1 );
}

print "Matches: $matched\n";
print "Mismatches: ", length( $strings[0] ) - $matched, "\n";

答案 2 :(得分:0)

通常我会说“你有什么尝试”和“先上传你的代码”因为它似乎不是一个非常困难的问题。但是让我们试一试:

创建两个数组,一个用于保存每个序列:

@sequenceOne = ("A", "T", "C", "G", "T", "A", "C");
@sequenceTwo = ("T", "A", "C", "G", "A", "A", "C");
$myMatch = 0;
$myMissMatch = 0;

for ($i = 0; $i < @sequenceOne; $i++) {
    my $output = "Comparing " . $sequenceOne[$i] . " <=> " . $sequenceTwo[$i];
    if ($sequenceOne[$i] eq $sequenceTwo[$i]) {
        $output .= " MATCH\n";
        $myMatch++;
    } else {
        $myMissMatch++;
        $output .= "\n";
    }
    print $output;
}

print "You have " . $myMatch . " matches.\n";
print "You have " . $myMissMatch . " mismatches\n";
print "The ratio of hits to misses is " . $myMatch . ":" . $myMissMatch . ".\n";

当然,你可能想要动态地从其他东西读取序列而不是硬编码数组。但是你明白了。使用上面的代码,您的输出将是:

torgis-MacBook-Pro:platform-tools torgis$ ./dna.pl 
Comparing A <=> T
Comparing T <=> A
Comparing C <=> C MATCH
Comparing G <=> G MATCH
Comparing T <=> A
Comparing A <=> A MATCH
Comparing C <=> C MATCH
You have 4 matches.
You have 3 mismatches
The ratio of hits to misses is 4:3.

答案 3 :(得分:0)

有很多方法可以做到这一点。这是一个。

use strict;
use warnings;

my $seq1 = "ATCGTAC";
my $seq2 = "TACGAAC";

my $len = length $seq1;
my $matches = 0;

for my $i (0..$len-1) {
    $matches++ if substr($seq1, $i, 1) eq substr($seq2, $i, 1);
}

printf "Length: %d  Matches: %d  Ratio: %5.3f\n", $len, $matches, $matches/$len;

exit 0;

答案 4 :(得分:0)

我认为substr是要走的路,而不是将字符串拆分成数组。

如果作为子程序出现,这可能是最方便的:

use strict;
use warnings;

print ratio(qw/ ATCGTAC TACGAAC /);

sub ratio {

  my ($aa, $bb) = @_;
  my $total = length $aa;
  my $matches = 0;
  for (0 .. $total-1) {
    $matches++ if substr($aa, $_, 1) eq substr($bb, $_, 1);
  }

  $matches / ($total - $matches);
}

<强>输出

1.33333333333333

答案 5 :(得分:0)

比尔·鲁珀特说,有很多方法可以做到这一点。这是另一个:

use Modern::Perl;

say compDNAseq( 'ATCGTAC', 'TACGAAC' );

sub compDNAseq {
    my $total = my $i = 0;
    $total += substr( $_[1], $i++, 1 ) eq $1 while $_[0] =~ /(.)/g;
    sprintf '%.2f', $total / ( $i - $total );
}

输出:

1.33

答案 6 :(得分:0)

这是一种为xor比较中的每个匹配提供NULL,\ 0的方法。

#!/usr/bin/perl
use strict;
use warnings;

my $d1='ATCGTAC'; 
my $d2='TACGAAC'; 

my $len = length $d1; # assumes $d1 and $d2 are the same length

my $matches = () = ($d1 ^ $d2) =~ /\0/g;

printf "ratio of %f", $matches / ($len - $matches);

输出:比率为1.333333